当前位置：首页 > news >正文

基于RAG与MCP协议构建实时新闻AI助手：newsmcp项目实战解析

news 2026/5/12 13:22:14

1. 项目概述：一个让AI“读新闻”的智能工具

最近在折腾AI应用开发的朋友，可能都绕不开一个核心问题：如何让大语言模型（LLM）获取并理解最新的、模型训练数据之外的信息？比如，你想让ChatGPT帮你分析今天科技板块的头条新闻，或者总结某家上市公司最新的财报要点，它通常会礼貌地告诉你，它的知识截止到某个日期，对此无能为力。这正是“检索增强生成”（RAG）技术要解决的核心痛点。而今天要拆解的这个项目——pranciskus/newsmcp，就是一个非常精巧、专为“新闻”这一垂直场景设计的RAG工具实现。

简单来说，newsmcp是一个服务端应用，它扮演了一个“新闻信息中转站”的角色。它的核心工作是：持续、自动地从你指定的新闻源（如RSS订阅）抓取最新的文章，对其进行处理、向量化并存储，然后通过一个标准化的协议（MCP）暴露给AI助手（如Claude Desktop），让AI能够实时“查阅”这些新闻，并基于此与你对话。你可以把它理解为你为AI助手私人订制的一个“实时新闻数据库”或“外部记忆体”。

这个项目的价值在于，它将复杂的RAG流程产品化、场景化了。你不需要从零开始搭建爬虫、向量数据库和API服务，newsmcp提供了一个开箱即用的解决方案，特别适合那些希望将AI能力与实时信息流结合起来的开发者、分析师或者单纯是科技爱好者。接下来，我将从设计思路、核心实现、实操部署到避坑指南，完整地拆解这个项目，分享我在部署和调优过程中的一手经验。

2. 核心架构与设计思路拆解

2.1 为什么是“新闻”+“MCP”？

在深入代码之前，我们先理解作者pranciskus选择这个技术组合的深层考量。这关乎项目的定位和实用性。

首先，为什么聚焦“新闻”？新闻数据具有几个鲜明特点，使其成为RAG技术的绝佳试验场和应用场景：

高时效性：新闻的价值随时间快速衰减，对“实时”或“准实时”获取有强需求，这正是基础LLM的短板。
结构化相对规范：尽管来源多样，但新闻通常包含标题、发布时间、正文、来源链接等元数据，便于进行统一处理和元信息关联。
信息密度高：正文内容通常是连贯、信息丰富的文本，适合进行语义分割和向量化表示。
需求场景明确：用户询问“今天有什么大新闻？”、“某公司最近有什么动态？”，这类问题非常具体，通过检索相关新闻片段来回答，效果立竿见影。

其次，为什么采用“MCP”（Model Context Protocol）？MCP是由Anthropic推出的一种开放协议，旨在标准化AI应用（如Claude）与外部工具、数据源之间的通信方式。选择MCP而非自建一套REST API，体现了项目的“生态友好性”和“用户易用性”设计：

即插即用：任何支持MCP协议的AI客户端（目前主要是Claude Desktop）都可以无缝接入newsmcp，用户无需学习新的交互方式。在Claude中，newsmcp提供的工具会像原生功能一样出现。
协议标准化：MCP定义了资源（Resources）和工具（Tools）的标准模型。newsmcp只需遵循协议暴露新闻数据和搜索工具，客户端就知道如何调用和呈现。
降低使用门槛：对于最终用户而言，他们不需要关心后端的向量数据库、Embedding模型，他们只需要在Claude里问问题，就能得到基于最新新闻的答案。MCP完美地隐藏了技术复杂性。

因此，newsmcp的设计思路可以概括为：针对高时效性新闻数据，构建一个自动化的预处理管道，并通过MCP这一新兴且友好的协议，将处理后的数据能力直接输送给主流的AI助手，实现“1（数据源）+1（处理服务）+1（AI客户端）”的轻量级、高可用实时信息解决方案。

2.2 技术栈选型与组件职责

打开newsmcp的代码仓库（通常是pyproject.toml或requirements.txt），我们可以看到其清晰的技术选型，每个组件都承担着明确的职责：

数据抓取与解析：feedparser+newspaper3k
- feedparser：负责从用户配置的RSS/Atom订阅源拉取原始的XML数据，解析出文章列表、标题、链接、发布时间等基础元数据。它的优点是轻量、稳定，是处理订阅源的事实标准。
- newspaper3k：这是一个功能更强的库。当feedparser获取到文章链接后，newspaper3k会去下载完整的HTML页面，并利用启发式算法提取文章的正文内容、作者、摘要、关键词，甚至主导图像。这一步至关重要，因为RSS源通常只包含摘要，而正文才是我们需要向量化的核心文本。
文本处理与向量化：langchain+sentence-transformers
- langchain：这里langchain并非用于构建复杂的链，更多的是利用其丰富的文本分割器（RecursiveCharacterTextSplitter）和与向量数据库交互的便捷接口。它负责将一篇长文章按照语义段落（考虑标点、换行）切割成大小适中的“文本块”（chunks），每个块通常包含几百个字符，并附带重叠部分以避免语义断裂。
- sentence-transformers：这是一个基于Transformer的句子嵌入模型库。newsmcp默认可能使用all-MiniLM-L6-v2这类轻量级模型。它的任务是将上一步得到的文本块，转换成一个高维度的向量（或称“嵌入”）。这个向量就像是文本的数学“指纹”，语义相近的文本，其向量在空间中的距离也更近。
向量存储与检索：chromadb
- chromadb：一个轻量级、嵌入式的向量数据库。它负责高效地存储所有新闻文本块对应的向量及其元数据（如来源文章ID、发布时间等）。当用户通过AI提出一个问题时，这个问题也会被转换成向量，chromadb的核心任务就是执行“相似性搜索”，从海量向量中快速找出与问题向量最相似的几个文本块（即最相关的新闻片段）。
协议层与服务暴露：mcp
- 这是项目的“门面”。newsmcp利用MCP的SDK，创建了一个MCP服务器。这个服务器主要暴露两类东西：
  - 资源：例如，可以设计一个news://latest资源，代表“最新新闻列表”。
  - 工具：这是核心。至少会提供一个search_news工具，接收用户的查询字符串，调用后端的向量检索流程，返回相关的新闻内容。MCP客户端（Claude）会调用这个工具。
任务调度：apscheduler
- 新闻是流动的，需要定期更新。apscheduler提供了一个简单可靠的后台任务调度器，可以配置为每隔一段时间（如30分钟）自动执行一次“抓取新闻 -> 处理 -> 存入向量库”的流水线作业，确保数据库中的新闻始终新鲜。

这个技术栈组合体现了“务实”和“专注”的特点：没有选用最重型、最前沿的组件，而是在满足核心需求（抓取、解析、嵌入、检索、协议暴露）的前提下，选择了社区成熟、易于部署和维护的库，极大地降低了项目的运行和二次开发成本。

3. 核心配置与部署实操详解

理论清晰后，我们进入实战环节。假设你已经在本地或一台服务器上准备好了Python环境（>=3.9），以下是部署和配置newsmcp的详细步骤。

3.1 环境准备与项目初始化

首先，克隆项目代码并安装依赖。通常这类项目会使用uv或poetry等现代包管理工具，我们以最通用的pip为例。

# 1. 克隆仓库 git clone https://github.com/pranciskus/newsmcp.git cd newsmcp # 2. 创建并激活虚拟环境（强烈推荐） python -m venv .venv source .venv/bin/activate # Linux/macOS # .venv\Scripts\activate # Windows # 3. 安装依赖 pip install -r requirements.txt # 如果项目使用 pyproject.toml，也可以使用 pip install -e .

安装过程可能会因为sentence-transformers需要下载预训练模型而稍慢，请保持网络通畅。

3.2 关键配置文件解析

newsmcp的核心行为由一个配置文件（可能是config.yaml,config.toml或通过环境变量）控制。理解并正确配置它是成功运行的关键。我们需要重点关注以下几个部分：

1. 新闻源配置这是项目的“数据输入口”。你需要提供一个RSS订阅源列表。

# 示例 config.yaml feeds: - url: "https://rss.example.com/tech" category: "technology" name: "Tech News Feed" - url: "https://feeds.bbci.co.uk/news/world/rss.xml" category: "world" name: "BBC World News" - url: "https://hnrss.org/frontpage" # Hacker News category: "technology" name: "Hacker News Top"

实操心得：RSS源的质量直接决定最终效果。优先选择那些提供全文输出（full-text）的源，而不是仅提供摘要的源。对于仅提供摘要的源，newspaper3k的正文提取效果会打折扣，有时会失败。你可以先用浏览器打开RSS链接，查看<description>或<content:encoded>标签里是否是完整文章。

2. 向量模型与文本分割配置这部分决定了文本如何被转换成向量以及如何被切分。

embedding: model_name: "all-MiniLM-L6-v2" # 轻量且效果不错的句子嵌入模型 # model_path: "/local/path/to/model" # 也可以指定本地路径 processing: chunk_size: 500 # 每个文本块的最大字符数 chunk_overlap: 50 # 块与块之间的重叠字符数，防止上下文断裂

注意事项：chunk_size是一个需要权衡的参数。太小（如200）会导致信息碎片化，检索到的片段可能缺乏完整上下文；太大（如1000）则可能包含无关信息，降低检索精度，且嵌入模型对长文本的表示可能不佳。500-800是一个常见的经验区间。chunk_overlap通常设为chunk_size的10%-20%。

3. 向量数据库配置chromadb是嵌入式的，数据默认会保存在本地一个目录中。

vectordb: persist_directory: "./chroma_db" # 向量数据持久化目录 collection_name: "news_articles" # 集合名称，可以按类别或时间创建多个

4. 抓取任务调度配置配置自动更新的频率。

scheduler: update_interval_minutes: 30 # 每30分钟抓取更新一次

3.3 首次运行与数据初始化

配置完成后，我们可以启动服务并执行第一次数据抓取和索引构建。

# 通常项目会提供一个主入口脚本，例如 main.py 或 server.py python src/newsmcp/server.py # 或者如果配置了入口点：newsmcp serve

服务启动后，通常会做两件事：

启动MCP服务器，监听某个端口（如8080），等待Claude Desktop等客户端连接。
立即执行一次新闻抓取和索引任务。

你可以在日志中看到类似的信息：

INFO: Started MCP server on port 8080 INFO: Starting scheduled news update... INFO: Fetching feed: Tech News Feed INFO: Downloaded and parsed article: 'OpenAI releases new model' INFO: Chunking article into 3 pieces INFO: Generating embeddings for 3 chunks INFO: Upserted 3 chunks into collection 'news_articles' INFO: Scheduled next update in 30 minutes.

这个过程可能会持续几分钟，取决于你配置的订阅源数量和文章长度。首次运行后，你的./chroma_db目录下就会保存所有新闻文本的向量索引。

3.4 连接AI客户端（以Claude Desktop为例）

这是体验魔法的一步。你需要配置Claude Desktop来连接你本地运行的newsmcp服务器。

打开Claude Desktop应用。
进入设置（Settings）-> 开发者（Developer）-> 编辑MCP服务器配置。

添加一个新的服务器配置。配置方式取决于newsmcp的暴露方式，常见的是通过标准输入输出（stdio）或HTTP。

如果newsmcp使用stdio（更常见，更安全）：

{ "mcpServers": { "newsmcp": { "command": "/absolute/path/to/your/.venv/bin/python", "args": ["/absolute/path/to/newsmcp/src/server.py"], "env": { "PYTHONPATH": "/absolute/path/to/newsmcp/src" } } } }

如果newsmcp使用HTTP：

{ "mcpServers": { "newsmcp": { "url": "http://localhost:8080" } } }

保存配置并重启Claude Desktop。

重启后，当你新建一个对话时，Claude的界面上可能会出现一个新的工具图标，或者在你输入问题时，Claude会自动建议使用search_news工具。现在，你可以尝试问：“今天科技领域有什么重要新闻？” 或 “告诉我关于特斯拉的最新消息。” Claude会在后台调用newsmcp的工具，检索相关的新闻块，并将其作为上下文来生成回答。

4. 核心工作流程与内部机制剖析

当用户在Claude中输入一个问题时，newsmcp内部是如何协同工作的？我们来梳理一下这个端到端的流程，这有助于你后续进行问题排查和自定义开发。

4.1 数据流水线：从RSS到向量库

这是后台定时任务的核心，也是信息处理的基石。

触发与抓取：apscheduler根据配置的时间间隔触发任务。任务启动后，遍历feeds配置列表，使用feedparser并发或顺序地抓取每个RSS源的XML内容。
解析与去重：feedparser解析XML，得到文章条目列表。系统会检查文章的guid或link，与数据库中已存在的记录进行比对，实现去重，避免同一篇文章被重复处理。
正文提取：对于新文章，使用newspaper3k库访问其link指向的原始网页。该库会执行以下操作：
- 下载HTML。
- 清理广告、导航栏等噪音。
- 运用算法识别文章正文主体。
- 提取正文文本、发布时间、作者等元数据。
- 潜在问题：对于某些反爬虫严格或结构特殊的网站，提取可能失败或得到空内容。这是该流程中的一个主要风险点。
文本分割：将提取到的纯文本正文，交给langchain的RecursiveCharacterTextSplitter。分割器会尝试按段落、句子等自然边界进行切割，生成多个chunk，并确保相邻chunk之间有重叠。
向量化：将每个chunk文本送入sentence-transformers模型，生成一个固定长度的浮点数向量（例如384维或768维）。这个过程是计算密集型的，首次运行需要下载模型。
存储索引：将(向量, chunk文本, 元数据)作为一个整体，存入chromadb的指定集合中。元数据至少包括：原始文章标题、链接、发布时间、所属分类等。这些元数据在后续检索和结果展示中非常有用。

4.2 查询流程：用户问题到AI答案

当Claude调用search_news工具时，流程如下：

接收查询：MCP服务器接收到来自客户端的调用请求，参数中包含用户的查询字符串（query）。
查询向量化：将用户的query字符串，使用同一个sentence-transformers模型，转换成查询向量。这一点至关重要，必须保证存储和查询使用的是同一个模型，否则向量空间不一致，检索结果将毫无意义。
相似性检索：在chromadb中，对指定的集合执行相似性搜索。chromadb会计算查询向量与库中所有存储向量的余弦相似度或欧氏距离，返回相似度最高的前k个结果（k通常可配置，如5个）。
结果组装与返回：检索到的不仅仅是向量ID，还有关联的chunk文本和元数据。MCP服务器将这些信息组装成结构化的数据（通常是JSON格式），按照MCP协议的定义返回给客户端。
AI生成答案：Claude Desktop收到newsmcp返回的相关新闻片段后，将这些片段作为额外的“上下文”（Context）或“系统提示”（System Prompt）的一部分，与用户原始问题一起，提交给Claude大模型。模型基于这些实时信息生成最终的回答。

整个过程中，newsmcp自身不运行大模型，它只负责信息的“检索”部分，是典型的RAG架构中的“R”（Retrieval）组件。而“A”（Augmentation）和“G”（Generation）则由Claude这类客户端完成。

5. 高级调优与自定义扩展指南

基础功能跑通后，你可以根据自身需求对newsmcp进行深度调优和扩展，使其更加强大和贴合你的使用场景。

5.1 提升检索质量的关键参数

优化chunk_size和chunk_overlap：这是影响检索精度的最直接参数。如果你的新闻多是短讯，可以适当减小chunk_size（如300）。如果是深度分析长文，可以增大（如800）。建议针对你的主要新闻源类型进行小规模测试，观察不同设置下，针对典型问题检索到的chunk是否包含了答案的核心信息。
尝试不同的Embedding模型：all-MiniLM-L6-v2是一个很好的平衡点。如果你更追求精度，且拥有更好的计算资源（GPU），可以尝试更大的模型，如all-mpnet-base-v2，它能生成768维的向量，语义表示能力更强。你可以在Hugging Face上寻找适合你语种（如果是中文新闻，则需要中文Embedding模型）和领域的最新模型。
利用元数据进行过滤：chromadb支持基于元数据的过滤。你可以在检索时增加过滤条件。例如，在search_news工具中增加category或date参数，让用户只检索特定类别或时间范围内的新闻。这需要在工具实现和数据库查询时做相应修改。
实现混合搜索：除了向量相似性搜索，还可以结合关键词搜索（如BM25）。例如，先通过关键词快速筛选出一批候选文章，再对这批文章进行向量精排。这能结合两者的优势，但实现复杂度更高。chromadb本身支持简单的关键词过滤，但完整的混合搜索可能需要集成Elasticsearch等。

5.2 扩展数据源与处理逻辑

支持更多数据源：除了RSS，你可以修改抓取模块，使其支持：
- API接口：许多新闻平台提供官方API（如NewsAPI， Guardian Open Platform）。
- 社交媒体：通过特定平台的API或爬虫（遵守Robots协议）抓取信息。
- 邮件列表/ Newsletter：解析邮件内容。核心是统一数据入口，输出结构化的文章对象（标题、正文、时间、链接）。
增强正文提取鲁棒性：newspaper3k并非万能。对于提取失败的网站，可以：
- 编写针对该网站的自定义解析规则（使用BeautifulSoup或lxml）。
- 尝试其他提取库，如trafilatura、goose3。
- 作为兜底方案，直接使用RSS源中的<content:encoded>或长摘要。
后处理与数据清洗：在文本分割前，可以加入清洗步骤：
- 移除无关的版权声明、推荐阅读链接。
- 统一日期格式。
- 识别并过滤掉纯广告或通知类文章。

5.3 系统监控与维护

对于长期运行的服务，监控和维护必不可少。

日志记录：确保项目的日志配置完善，记录每次抓取的任务状态（成功/失败源数量、新增文章数）、检索请求的耗时等。这有助于排查问题。
数据老化与清理：新闻有过期性。可以定期（如每周）运行一个清理任务，删除超过一定时间（如30天）的旧文章向量，以控制数据库大小和提高检索效率。
健康检查：为MCP服务器添加一个简单的健康检查端点（如果使用HTTP方式），方便监控服务状态。
错误处理与重试：网络请求和网页解析充满不确定性。在抓取和解析模块中，必须加入完善的错误处理（try-catch）和重试机制（如使用tenacity库），避免个别源的失败导致整个任务中断。

6. 常见问题与故障排查实录

在实际部署和使用newsmcp的过程中，你几乎一定会遇到下面这些问题。这里记录了我的排查思路和解决方案。

6.1 数据抓取与处理类问题

问题1：日志显示大量“Failed to extract article from [某链接]”警告。

原因：newspaper3k无法从该网站页面中有效识别正文。常见于JavaScript渲染严重、结构特殊或反爬的网站。
排查：
1. 手动用浏览器打开该链接，查看页面结构。
2. 检查页面是否需要执行JS才能加载内容（newspaper3k不执行JS）。
3. 查看网页源代码，看正文是否在明显的<article>或<div>标签内。
解决：
- 方案A（换源）：寻找该网站是否提供更友好的全文RSS源。
- 方案B（自定义解析）：针对该网站写一个简单的HTML解析函数，替换newspaper3k。可以使用requests+BeautifulSoup定位特定CSS选择器下的文本。
- 方案C（降级）：在配置中为该源设置一个标志，遇到提取失败时，回退到使用RSS中的摘要（description）作为chunk内容，虽然信息不全，但好过没有。

问题2：抓取任务运行缓慢，尤其是首次运行。

原因：
1. 配置的新闻源过多或单个源文章量巨大。
2. sentence-transformers首次运行需要下载模型（几百MB），且生成向量是CPU密集型操作。
3. 网络延迟。
解决：
- 限制并发：在抓取和解析时，使用asyncio或线程池控制并发数，避免对目标网站造成过大压力，也避免本地资源耗尽。
- 分步初始化：首次启动时，可以先注释掉大部分新闻源，只保留1-2个核心源，让系统快速跑起来。后续再逐步添加。
- 考虑GPU：如果新闻量极大，且追求更新速度，可以考虑在支持CUDA的环境下运行，sentence-transformers可以利用GPU大幅加速向量生成。

问题3：检索结果不相关，经常答非所问。

原因：
1. chunk_size设置不当：块太大包含噪音，太小丢失上下文。
2. Embedding模型不匹配：查询时使用的模型与建库时的模型不是同一个。这是最容易被忽略的严重问题！确保服务重启后，Embedding模型初始化代码路径一致。
3. 文本分割导致语义断裂：文章在表格、代码块、特殊符号处被不合理地切分。
排查与解决：
- 打印出针对某个查询检索到的原始chunk文本，看看它到底包含了什么。这是最直接的调试方法。
- 调整chunk_size和chunk_overlap，观察效果变化。
- 确认模型名称和路径在配置文件中唯一指定，并在代码中确保只初始化一次该模型。
- 尝试使用langchain中更高级的分割器，如按标记（token）分割或语义分割器，虽然更慢但可能效果更好。

6.2 MCP连接与客户端问题

问题4：Claude Desktop无法连接newsmcp，提示“Server connection failed”。

原因：MCP服务器配置错误或服务未正常启动。
排查步骤：
1. 检查服务是否运行：在终端运行ps aux | grep newsmcp（Linux/macOS）或查看任务管理器，确认进程存在。
2. 检查日志：查看newsmcp启动时的日志，是否有错误堆栈。常见错误包括：导入失败、配置文件找不到、端口被占用。
3. 检查Claude配置：
  - 如果使用stdio方式，command和args的路径必须是绝对路径，虚拟环境下的Python路径也要正确。
  - 如果使用HTTP方式，先用curl http://localhost:8080（或你的端口）测试服务是否可达。
4. 检查防火墙：确保Claude Desktop有权限执行你指定的命令。

问题5：在Claude中看不到search_news工具。

原因：MCP握手成功，但工具未正确注册或协议版本不兼容。
排查：
1. 查看newsmcp启动日志，确认在初始化MCP服务器时，search_news工具被成功添加到服务器实例中。
2. 检查Claude Desktop的版本是否支持MCP。通常需要较新的版本。
3. 尝试在Claude中手动输入@search_news，看是否有提示。

6.3 性能与资源问题

问题6：运行一段时间后，内存占用很高或磁盘空间增长很快。

原因：
1. chromadb默认在内存中缓存向量索引，新闻数据不断累积导致内存占用上升。
2. 向量数据库文件（在persist_directory）随着数据增加而变大。
解决：
- 实施数据清理策略：如前所述，定期清理旧新闻。
- 调整chromadb配置：可以设置chromadb的缓存策略，但通常效果有限。最根本的还是控制数据总量。
- 监控与告警：为服务器内存和磁盘使用率设置监控，超过阈值时触发告警或自动清理任务。

部署newsmcp的过程，是一个典型的“搭积木”和“调参数”的过程。它不是一个黑盒产品，而是一个提供了清晰管道的开源项目。你能走多远，很大程度上取决于你对其各个组件的理解深度，以及你根据自身数据源和需求进行定制和优化的能力。从简单的RSS订阅开始，逐步扩展到更复杂的数据源，优化检索效果，这个过程本身就是对RAG技术栈一次绝佳的实践学习。

查看全文

http://www.jsqmd.com/news/802422/