当前位置：首页 > news >正文

news-please：革命性新闻爬虫工具，一站式解决新闻信息提取难题

news 2026/6/6 0:53:01

news-please：革命性新闻爬虫工具，一站式解决新闻信息提取难题

【免费下载链接】news-pleasenews-please - an integrated web crawler and information extractor for news that just works项目地址: https://gitcode.com/gh_mirrors/ne/news-please

news-please 是一款开源、易用的新闻爬虫工具，能够从几乎任何新闻网站提取结构化信息。它可以递归跟踪内部超链接并读取 RSS 源，以获取最新以及旧的存档文章。只需提供新闻网站的根 URL，即可完全爬取该网站。news-please 结合了多个最先进的库和工具的强大功能，如 scrapy、Newspaper 和 readability。

🌟 核心功能亮点

自动提取丰富新闻属性

news-please 能够从新闻文章中提取多种属性，包括标题、作者、发布日期、内容文本、描述、顶部图片等。提取的文章样例可参考 sample.json，展示了工具输出的结构化数据格式。

多场景灵活应用

库模式：Python 开发者可在自己的程序中使用其爬取和提取功能，轻松集成到现有项目中。
通用爬取：支持通过根 URL 对新闻网站进行完整爬取，自动跟踪内部链接。
CommonCrawl 集成：能方便地从 commoncrawl.org 的大型新闻档案中爬取和提取文章，具体可查看 commoncrawl.py。

🚀 快速开始使用

简单安装步骤

news-please 运行在 Python 3.8+ 环境，通过 pip 即可轻松安装：

pip install news-please

两种使用方式

1. 库模式

在自己的代码中访问 news-please 的核心功能，从一个或多个新闻文章中提取半结构化信息。例如：

from newsplease import NewsPlease article = NewsPlease.from_url('https://example.com/news-article') print(article.title) print(article.text)

2. CLI 模式

通过命令行界面使用完整的网站提取或持续爬取模式：

news-please

默认情况下，结果以 JSON 文件形式存储在data文件夹中，同时也会存储原始 HTML 文件。

⚙️ 个性化配置指南

自定义爬取网站

修改sitelist.hjson文件，添加您选择的新闻媒体网页的根 URL，即可爬取指定网站。此外，还可以从 GDELT 项目中提取最新事件，相关实现见 gdelt_crawler.py。

数据存储选项

ElasticSearch 导出：在config.cfg中启用 ElasticSearch 存储，还将启用版本控制功能。
PostgreSQL 存储：打开相应的配置文件（库模式为config_lib.cfg，CLI 模式为config.cfg），将 PostgresqlStorage 模块添加到管道并调整数据库凭据。

🤝 参与贡献

如果您想为 news-please 做贡献，请先阅读相关贡献指南。项目欢迎各种形式的贡献，包括代码改进、文档完善等。

📋 注意事项

运行过程中，按CTRL+C可在 5-60 秒内正常关闭进程；按两次CTRL+C将立即终止进程（不推荐）。
配置目录默认位于~/news-please/config，可通过-c参数更改到自定义位置。若目录不存在，将在指定位置创建默认目录。

通过 news-please，无论是获取最新新闻动态，还是挖掘历史新闻数据，都能变得简单高效。这款强大的新闻爬虫工具，将为您的新闻信息提取工作带来革命性的改变。

【免费下载链接】news-pleasenews-please - an integrated web crawler and information extractor for news that just works项目地址: https://gitcode.com/gh_mirrors/ne/news-please

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/659037/