当前位置：首页 > news >正文

Chatbot Arena榜单查看效率优化实战：从数据抓取到可视化分析

news 2026/7/8 18:01:00

Chatbot Arena榜单查看效率优化实战：从数据抓取到可视化分析

每次刷 Chatbot Arena 榜单，我都像在玩“大家来找茬”——页面加载慢、排名跳来跳去，手动复制到 Excel 再画图，半小时就过去了。更糟的是，官方数据一天更新好几次，刚整理好的表格转眼就过期。于是我把整个流程自动化，一口气把“看榜单”从 30 分钟缩到 5 分钟，效率提升 3 倍不止。下面把踩过的坑和代码全部摊开，中级 Python 玩家直接抄作业即可。

1. 背景痛点：手动看榜的三座大山

页面懒加载：榜单默认只展示 Top 10，剩余模型得不断下拉，人工滑 200 行简直反人类。
数据时效差：官方没提供 API，复制粘贴那刻起数据就“过期”，对比历史趋势更是噩梦。
重复劳动：每次做周报都要重新跑一遍“打开网页→筛选→复制→清洗→画图”，毫无技术含量却占用了大量开发时间。

2. 技术选型：Requests+BS4 还是 Scrapy？

维度	Requests+BeautifulSoup	Scrapy
学习成本	低，顺手就用	高，需要理解 Twisted 异步模型
反爬定制	手动加 Header、重试、限速，灵活	中间件一键加代理、UA 池，但配置啰嗦
动态内容	可配合 Selenium 但重	同左，依旧要单独开浏览器
后期扩展	脚本化，文件一多就乱	内置数据管道、日志、监控，一步到位

结论：榜单页只是静态 HTML 表格，无 JS 加密，数据量小（约 200 条）。Requests+BS4 足够轻量，半小时写完就能跑；Scrapy 大材小用，还要写 Items、Pipeline，反而拖慢节奏。因此本文主代码采用 Requests+BS4，预留接口方便后续迁到 Scrapy。

3. 核心实现：稳、准、快地抓

3.1 反爬第一道关：UA 池 + 间隔

# ua_pool.py import random USER_AGENTS = [ "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 ..." ] def get_headers(): return { "User-Agent": random.choice(USER_AGENTS), "Accept-Language": "en-US,en;q=09", }

# spider.py import time, requests from ua_pool import get_headers from lxml import html URL = "https://chatbot-arena.leaderboard.com" def fetch_leaderboard(retries=3, backoff=2): """带重试与随机等待的抓取函数""" for attempt in range(retries): try: time.sleep(random.uniform(0.5, 1.5)) # 礼貌限速 resp = requests.get(URL, headers=get_headers(), timeout=15) resp.raise_for_status() return resp.text except requests.RequestException as e: print(f"[warn] 第{attempt+1}次失败: {e}") time.sleep(backoff ** attempt) return None

3.2 XPath 精准提取 + 异常兜底

def parse_html(html_text): """提取榜单表格，返回 List[dict]""" root = html.fromstring(html_text) rows = root.xpath("//table[@id='leaderboard']/tbody/tr") data = [] for tr in rows: try: model_a = tr.xpath("./td[2]/text()")[0].strip() model_b = tr.xpath("./td[3]/text()")[0].strip() score = float(tr.xpath("./td[4]/text()")[0]) data.append({"model_a": model_a, "model_b": model_b, "score": score}) except (IndexError, ValueError) as e: print(f"[warn] 解析行失败，跳过: {e}") continue return data

要点：

用//table[@id='leaderboard']锁定目标，避免广告行干扰
解析异常直接丢日志，不中断整个任务，防止一条烂数据毁掉 2 小时爬取

4. 数据处理：Pandas 三板斧

抓下来的原始字段混用 “N/A”、空字符串、百分号，需要统一清洗：

import pandas as pd def clean(raw_list): df = pd.DataFrame(raw_list) # 1. 缺失值处理 df.replace("N/A", pd.NA, inplace=True) df.dropna(subset=["score"], inplace=True) # 2. 类型转换 df["score"] = pd.to_numeric(df["score"], errors="coerce") # 3. 去重（同名模型不同行） df = df.groupby("model_a", as_index=False).mean().round(3) return df

一行groupby+mean就把重复模型聚合，之后画折线图才不会出现断点。

5. 可视化：Matplotlib 画动态排名

import matplotlib.pyplot as plt import matplotlib.animation as animation def draw_trend(data_frames): """ data_frames: Dict[str, DataFrame] key=日期, value=当日榜单 """ fig, ax = plt.subplots(figsize=(8, 5)) palette = plt.cm.tab10.colors def update(date): ax.clear() df = data_frames[date].sort_values("score", ascending=False).head(10) ax.barh(df["model_a"], df["score"], color=palette[:len(df)]) ax.set_xlim(0, 1400) ax.set_title(f"Chatbot Arena 排名 ({date})") ax.set_xlabel("Elo 分数") ani = animation.FuncAnimation(fig, update, frames=list(data_frames.keys()), interval=800, repeat=True) plt.show() # 也可 ani.save("trend.gif", writer="pillow") 生成分享动图

注释关键点：

FuncAnimation让图随时间帧自动刷新，周报直接放 GIF，老板看得懂
提前set_xlim保证纵轴范围不变，动画不会乱跳

6. 避坑指南：那些藏在细节里的坑

动态加载≠ AJAX：榜单表面看是“下拉更多”，其实只是<details>标签折叠，服务器一次性吐生成全表。因此直接 GET 就能拿全量数据，不必上 Selenium，省 80% 运行时间。
IP 被封怎么办？
- 免费代理池（proxy_pool）+ 随机切换
- 控制并发 1 req/s，并在 Header 加Accept-Encoding: gzip减少流量
- 若仍被封，把脚本放 CI（GitHub Actions）定时跑，IP 随 runner 变动，天然分布式
数据持久化：SQLite 足够，按“日期+模型”建联合主键，后续用 SQL 直接对比两天分差，比 Excel VLOOKUP 快 10 倍