news-please:革命性新闻爬虫工具,一站式解决新闻信息提取难题
news-please:革命性新闻爬虫工具,一站式解决新闻信息提取难题
【免费下载链接】news-pleasenews-please - an integrated web crawler and information extractor for news that just works项目地址: https://gitcode.com/gh_mirrors/ne/news-please
news-please 是一款开源、易用的新闻爬虫工具,能够从几乎任何新闻网站提取结构化信息。它可以递归跟踪内部超链接并读取 RSS 源,以获取最新以及旧的存档文章。只需提供新闻网站的根 URL,即可完全爬取该网站。news-please 结合了多个最先进的库和工具的强大功能,如 scrapy、Newspaper 和 readability。
🌟 核心功能亮点
自动提取丰富新闻属性
news-please 能够从新闻文章中提取多种属性,包括标题、作者、发布日期、内容文本、描述、顶部图片等。提取的文章样例可参考 sample.json,展示了工具输出的结构化数据格式。
多场景灵活应用
- 库模式:Python 开发者可在自己的程序中使用其爬取和提取功能,轻松集成到现有项目中。
- 通用爬取:支持通过根 URL 对新闻网站进行完整爬取,自动跟踪内部链接。
- CommonCrawl 集成:能方便地从 commoncrawl.org 的大型新闻档案中爬取和提取文章,具体可查看 commoncrawl.py。
🚀 快速开始使用
简单安装步骤
news-please 运行在 Python 3.8+ 环境,通过 pip 即可轻松安装:
pip install news-please两种使用方式
1. 库模式
在自己的代码中访问 news-please 的核心功能,从一个或多个新闻文章中提取半结构化信息。例如:
from newsplease import NewsPlease article = NewsPlease.from_url('https://example.com/news-article') print(article.title) print(article.text)2. CLI 模式
通过命令行界面使用完整的网站提取或持续爬取模式:
news-please默认情况下,结果以 JSON 文件形式存储在data文件夹中,同时也会存储原始 HTML 文件。
⚙️ 个性化配置指南
自定义爬取网站
修改sitelist.hjson文件,添加您选择的新闻媒体网页的根 URL,即可爬取指定网站。此外,还可以从 GDELT 项目中提取最新事件,相关实现见 gdelt_crawler.py。
数据存储选项
- ElasticSearch 导出:在
config.cfg中启用 ElasticSearch 存储,还将启用版本控制功能。 - PostgreSQL 存储:打开相应的配置文件(库模式为
config_lib.cfg,CLI 模式为config.cfg),将 PostgresqlStorage 模块添加到管道并调整数据库凭据。
🤝 参与贡献
如果您想为 news-please 做贡献,请先阅读相关贡献指南。项目欢迎各种形式的贡献,包括代码改进、文档完善等。
📋 注意事项
- 运行过程中,按
CTRL+C可在 5-60 秒内正常关闭进程;按两次CTRL+C将立即终止进程(不推荐)。 - 配置目录默认位于
~/news-please/config,可通过-c参数更改到自定义位置。若目录不存在,将在指定位置创建默认目录。
通过 news-please,无论是获取最新新闻动态,还是挖掘历史新闻数据,都能变得简单高效。这款强大的新闻爬虫工具,将为您的新闻信息提取工作带来革命性的改变。
【免费下载链接】news-pleasenews-please - an integrated web crawler and information extractor for news that just works项目地址: https://gitcode.com/gh_mirrors/ne/news-please
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
