当前位置：首页 > news >正文

Python爬虫新选择：用arxiv.py库轻松抓取最新AI论文（附完整代码示例）

news 2026/5/2 12:50:00

Python爬虫新选择：用arxiv.py库轻松抓取最新AI论文（附完整代码示例）

在AI技术日新月异的今天，跟踪最新学术论文已成为开发者和研究者的必修课。arXiv作为全球最大的开放学术平台之一，每天都有大量高质量论文发布，但手动浏览和筛选效率极低。传统爬虫方案如requests+BeautifulSoup不仅代码量大，还容易触发反爬机制。而arxiv.py这个轻量级Python库，让获取学术资源变得前所未有的简单。

1. 为什么选择arxiv.py而非传统爬虫？

在学术资源获取领域，开发者通常面临几种选择：手动下载、传统爬虫工具或专用API库。arxiv.py作为arXiv官方API的Python封装，在易用性和功能性上达到了完美平衡。

与传统爬虫方案对比：

特性	arxiv.py	requests+BeautifulSoup
代码复杂度	低	高
反爬风险	无	有
查询语法支持	完整	需自行解析
分页处理	自动	手动
元数据完整性	结构化	需提取
下载速度限制	宽松	严格

实际案例：获取最近一周的"LLM"相关论文，arxiv.py仅需5行代码，而传统方案至少需要处理：

请求头设置
页面解析
分页逻辑
反爬规避
数据清洗

# arxiv.py实现示例 import arxiv search = arxiv.Search( query="LLM", max_results=50, sort_by=arxiv.SortCriterion.SubmittedDate ) for result in arxiv.Client().results(search): print(result.title, result.published)

2. 环境配置与高级查询技巧

安装仅需标准pip命令，但国内用户可能遇到下载慢的问题：

# 基础安装 pip install arxiv # 使用阿里云镜像加速 pip install -i https://mirrors.aliyun.com/pypi/simple arxiv

高级查询语法是arxiv.py的核心优势，远比网页搜索强大：

字段限定查询：
- ti:标题搜索（如ti:transformer）
- au:作者搜索（如au:yann_lecun）
- cat:分类搜索（如cat:cs.CL）

布尔运算：

# 搜索Yann LeCun或Geoffrey Hinton的CNN相关论文 query = "(au:yann_lecun OR au:geoffrey_hinton) AND ti:CNN"

时间范围过滤：

from datetime import datetime, timedelta last_week = datetime.now() - timedelta(days=7) search = arxiv.Search( query="LLM", sort_by=arxiv.SortCriterion.SubmittedDate, sort_order=arxiv.SortOrder.Descending )

提示：arXiv的完整查询语法参考其官方API手册，支持更复杂的逻辑组合。

3. 实战：构建自动化论文追踪系统

将arxiv.py与常用工具结合，可以打造个性化的论文工作流。以下是集成Notion的完整示例：

import arxiv from notion_client import Client # 配置Notion集成 notion = Client(auth="your_integration_token") database_id = "your_database_id" def add_to_notion(paper): notion.pages.create( parent={"database_id": database_id}, properties={ "Title": {"title": [{"text": {"content": paper.title}}]}, "Authors": {"rich_text": [{"text": {"content": ", ".join(a.name for a in paper.authors)}}]}, "URL": {"url": paper.entry_id}, "Published": {"date": {"start": str(paper.published.date())}}, "Summary": {"rich_text": [{"text": {"content": paper.summary[:2000]}}]} } ) # 获取最近10篇CVPR论文 search = arxiv.Search( query="cat:cs.CV AND ti:CVPR", max_results=10, sort_by=arxiv.SortCriterion.SubmittedDate ) for result in arxiv.Client().results(search): add_to_notion(result)

扩展功能建议：

添加Telegram机器人通知新论文
自动下载PDF到指定文件夹
与Zotero集成管理参考文献
定期运行（如每周一早上8点）

4. 性能优化与异常处理

当处理大量论文时，需要注意以下关键点：

分页策略：

# 分批获取避免内存溢出 search = arxiv.Search(query="LLM", max_results=1000) for i, result in enumerate(arxiv.Client().results(search)): if i >= 300: # 只处理前300条 break process_paper(result)

错误重试机制：

from tenacity import retry, stop_after_attempt @retry(stop=stop_after_attempt(3)) def safe_download(paper): try: paper.download_pdf(dirpath="./papers") except arxiv.ArxivError as e: print(f"下载失败: {e}") raise

速率限制规避：
- 添加随机延迟（0.5-2秒）
- 使用代理IP池（仅在高频请求时需要）
- 优先使用sort_by=arxiv.SortCriterion.SubmittedDate减少重复

完整工作流示例：

import time import random from pathlib import Path def batch_download(query, output_dir, limit=100): Path(output_dir).mkdir(exist_ok=True) search = arxiv.Search( query=query, max_results=limit, sort_by=arxiv.SortCriterion.SubmittedDate ) for i, paper in enumerate(arxiv.Client().results(search)): try: filename = f"{paper.get_short_id()}_{paper.title[:50]}.pdf" paper.download_pdf(dirpath=output_dir, filename=filename) print(f"已下载: {filename}") time.sleep(random.uniform(0.5, 1.5)) except Exception as e: print(f"Error on {paper.title}: {str(e)}") continue batch_download("cat:cs.LG AND ti:diffusion", "./diffusion_papers")

5. 与其他学术工具的深度集成

arxiv.py的真正价值在于其可扩展性。以下是三个进阶集成方案：

方案一：构建论文推荐系统

# 基于用户历史记录推荐相关论文 user_interests = ["transformer", "attention mechanism"] recommendations = arxiv.Search( query=" OR ".join(user_interests), max_results=20, sort_by=arxiv.SortCriterion.Relevance )

方案二：自动生成文献综述

from langchain.chat_models import ChatOpenAI from langchain.schema import HumanMessage def generate_summary(paper): llm = ChatOpenAI(temperature=0.5) prompt = f"用中文总结这篇AI论文的核心贡献:\n\n标题:{paper.title}\n摘要:{paper.summary}" return llm([HumanMessage(content=prompt)]).content for paper in arxiv.Client().results(arxiv.Search(query="cat:cs.CL", max_results=5)): print(f"## {paper.title}\n{generate_summary(paper)}\n")

方案三：学术社交网络分析

# 分析作者合作网络 import networkx as nx G = nx.Graph() search = arxiv.Search(query="au:yoshua_bengio", max_results=50) for paper in arxiv.Client().results(search): authors = [a.name for a in paper.authors] for i in range(len(authors)): for j in range(i+1, len(authors)): G.add_edge(authors[i], authors[j]) print(f"合作最频繁的搭档: {max(G.degree(), key=lambda x:x[1])}")

6. 实际应用中的经验分享

在长期使用arxiv.py管理学术资源的过程中，有几个实用技巧值得分享：

查询优化：组合多个条件时，先用简单查询测试响应速度，复杂查询可能超时

本地缓存：将结果保存为JSON，避免重复请求相同内容

import json def cache_results(results, filename): with open(filename, 'w') as f: json.dump([r.__dict__ for r in results], f)

PDF处理：结合PyPDF2或pdfminer提取下载论文的关键信息

定时任务：使用APScheduler创建每日自动抓取任务

from apscheduler.schedulers.blocking import BlockingScheduler def daily_fetch(): search = arxiv.Search(query="cat:cs.AI", max_results=10) # 处理逻辑... scheduler = BlockingScheduler() scheduler.add_job(daily_fetch, 'cron', hour=8) scheduler.start()

遇到最多的问题是API偶尔返回不完整数据，解决方案是：