当前位置：首页 > news >正文

Parsera在Jupyter Notebook中的应用：交互式网页数据提取指南

news 2026/3/27 1:24:28

Parsera在Jupyter Notebook中的应用：交互式网页数据提取指南

【免费下载链接】parseraLightweight library for scraping web-sites with LLMs项目地址: https://gitcode.com/gh_mirrors/pa/parsera

Parsera是一款轻量级Python库，专为结合LLM（大语言模型）进行网页数据提取设计。本文将详细介绍如何在Jupyter Notebook环境中使用Parsera，通过交互式操作实现高效网页数据采集，无需复杂编程知识即可快速上手。

📋 准备工作：环境搭建步骤

在Jupyter Notebook中使用Parsera前，需要完成基础环境配置。以下是简单三步安装流程：

安装核心库
在Jupyter Notebook的代码单元格中执行：
```
!pip install parsera !playwright install
```
设置API密钥
Parsera需要API密钥进行认证，在Notebook中配置环境变量：
```
import os os.environ["PARSERA_API_KEY"] = "YOUR_API_KEY" # 替换为实际API密钥
```

验证安装
运行测试代码确认环境正常：

from parsera import Parsera print("Parsera版本:", Parsera.__version__)

图1：Parsera项目标志 - 轻量级网页数据提取工具

🔍 基础操作：第一个数据提取示例

在Jupyter Notebook中，只需几行代码即可完成网页数据提取。以下示例演示如何从新闻网站提取标题和互动数据：

from parsera import Parsera # 配置提取目标和规则 url = "https://news.ycombinator.com/" elements = { "Title": "新闻标题文本", "Points": "文章获得的点赞数", "Comments": "评论数量" } # 执行提取 scraper = Parsera() result = scraper.run(url=url, elements=elements) # 在Notebook中展示结果 result[:3] # 显示前3条数据

执行后将获得结构化JSON数据，包含标题、点赞数和评论数等信息。通过Jupyter的交互特性，可以直接对结果进行筛选、可视化或导出。

⚙️ 高级功能：定制化提取方案

Parsera提供多种高级特性，可在Jupyter环境中灵活配置：

1. 类型指定提取

通过定义数据类型确保提取精度：

elements = { "Title": {"description": "新闻标题", "type": "string"}, "Points": {"description": "点赞数", "type": "integer"}, "Comments": {"description": "评论数", "type": "integer"} } scraper = Parsera(typed=True) # 启用类型校验 result = scraper.run(url=url, elements=elements)

2. 异步操作支持

对于批量提取任务，使用异步方法提升效率：

async def batch_extract(): scraper = Parsera() urls = ["https://news.ycombinator.com/?p=1", "https://news.ycombinator.com/?p=2"] tasks = [scraper.arun(url=url, elements=elements) for url in urls] return await asyncio.gather(*tasks) # 在Jupyter中运行异步函数 import asyncio results = asyncio.run(batch_extract())

3. 自定义Cookie配置

如需提取需要登录的页面数据，可通过Cookie认证：

import json # 从文件加载Cookie（需提前准备cookies.json） with open("cookies.json", "r") as f: cookies = json.load(f) scraper = Parsera(custom_cookies=cookies) result = scraper.run(url="https://example.com/protected-page")

📊 应用场景：Jupyter中的数据处理流程

结合Jupyter Notebook的特性，Parsera可构建完整的数据处理 pipeline：

数据采集：使用Parsera提取原始网页数据
数据清洗：在Notebook中进行数据过滤和转换
可视化分析：利用Matplotlib/Seaborn生成图表
结果导出：保存为CSV/Excel或写入数据库

示例工作流代码：

# 数据提取 result = scraper.run(url=url, elements=elements) # 转换为DataFrame import pandas as pd df = pd.DataFrame(result) # 数据清洗 df['Points'] = df['Points'].astype(int) df = df[df['Points'] > 10] # 筛选点赞数大于10的文章 # 可视化 df.plot(kind='bar', x='Title', y='Points', figsize=(12, 6))