当前位置：首页 > news >正文

基于LLM的互联网规模检索引擎架构设计与实现

news 2026/5/2 11:51:38

1. 项目概述：一个全新的互联网规模检索引擎架构

最近在折腾一个挺有意思的开源项目，叫dzhng/deep-seek。这名字乍一看容易跟国内那家AI公司搞混，但其实它完全不是一回事。这是一个实验性的架构，目标是用大语言模型（LLM）来构建一个互联网规模的“检索引擎”。这个定位非常关键，它和我们这两年看到的、已经有点“卷”起来的“研究型智能体”走了完全不同的路。

简单来说，现在市面上大多数基于LLM的智能体，比如Perplexity、GPT-Researcher，它们的核心定位是“答案引擎”。你问一个问题，它们的目标是聚合大量信息源，为你找到一个最正确、最简洁的答案，最终输出一份研究报告或一个总结段落。这很好，解决了信息获取的效率问题。

但deep-seek想做的是另一件事：检索引擎。它的目标不是给你一个答案，而是给你一张“地图”。当你提出一个查询时，它会在互联网上疯狂“扫荡”，目标是把所有相关的“实体”都找出来，并尽可能丰富每个实体的属性信息，最终呈现为一个结构化的表格。比如，你问“2024年值得关注的AI编程工具”，一个答案引擎可能会给你一篇包含Top 5工具及其特点的文章；而deep-seek则会尝试给你列出它所能找到的所有相关工具（可能是几十个），并为每个工具填充上官网、定价、核心功能、用户评价等属性列，哪怕有些信息不全或置信度不高，它也会诚实地标注出来。

这个区别有点像“授人以鱼”和“授人以渔”的区别，也像是从“搜索答案”回归到了“搜索信息”的本质。对于需要做市场调研、竞品分析、学术文献综述或者任何需要“全面摸底”场景的研究者、分析师或产品经理来说，后者的价值可能更大。它不替你下结论，但它尽可能把“食材”都给你找齐、分好类，让你自己做菜。这个思路在当前的AI应用浪潮里，显得有点“复古”但又非常务实。

2. 核心设计思路：从“答案聚合”到“实体普查”

为什么我们需要一个“检索引擎”而非又一个“答案引擎”？这得从我们处理复杂信息需求的实际工作流说起。很多时候，尤其是在工作的早期探索阶段，我们面临的不是一个有明确答案的问题，而是一个模糊的、需要被“定义”的领域。比如，“新能源汽车的电池技术路线有哪些？”、“东南亚跨境电商的物流服务商现状如何？”。这些问题没有唯一答案，答案引擎倾向于给你一个它认为最优的概括，但这往往会损失信息的广度、多样性和潜在的“长尾”发现。

deep-seek的架构设计正是为了应对这种需求。它的核心目标不是“聚合”出唯一真理，而是“普查”出全景视图。为了实现这个目标，它的架构与我们常见的“一问一答”或“自我反思循环”的智能体模式截然不同。作者将其称为一种“流程工程”的架构，或者更直白地说，是一个设计精巧的、多步骤的“信息处理流水线”。

这个流水线将一次复杂的检索任务分解为四个顺序执行的阶段：规划、搜索、提取、丰富。每个阶段职责单一，并通过明确的“工作成果”（如规划方案、搜索列表、实体集合、丰富后的表格）传递给下一阶段。这种设计有几个显著优势：

可解释性强：你可以在日志中清晰地看到每个阶段在做什么、输出了什么，哪里卡住了，哪里产生了大量结果。这比一个黑盒子的“思考链”要透明得多。
可控性高：每个阶段都可以独立优化或替换。比如，你觉得搜索效果不好，可以换用不同的搜索API或调整搜索策略，而不影响提取逻辑。
适合处理规模：通过将任务分解，系统可以并行或批量处理大量信息源。例如，在“提取”阶段，它可以一次性处理多个网页内容来抽取实体，而不是对每个网页进行一次完整的问答。

这种架构思想其实在传统软件工程中很常见——将复杂流程模块化。deep-seek的创新之处在于，它用LLM作为每个模块的“智能处理器”，并将它们串联起来，去完成一个传统上需要人工反复搜索、阅读、整理才能完成的信息普查任务。它承认了当前LLM在复杂推理和事实核查上的局限性，因此不追求“一步到位”给出完美答案，而是追求“步步为营”地构建一个尽可能全面的、带置信度标注的知识图谱雏形。

3. 四步流水线深度解析

3.1 规划阶段：定义检索的“蓝图”

一切始于用户的查询。规划器的任务不是去回答问题，而是去定义回答的形态。它接收原始查询，然后输出一个“检索蓝图”。这个蓝图主要包含两部分：

目标实体类型：我们到底要找什么？是“公司”、“产品”、“学术论文”、“人物”，还是“事件”？规划器需要从模糊的查询中抽象出具体的实体类别。例如，对于查询“用于代码生成的AI工具”，实体类型可能就是“软件开发工具”或“SaaS产品”。
实体属性列：关于这些实体，用户可能关心哪些信息？规划器会定义表格的列。这可能包括：名称、官网、描述、主要功能、定价模型、成立年份、用户评分、相关新闻等。这些列直接决定了后续“丰富”阶段的工作内容。

实操心得：规划阶段是整个流程的“总指挥”，它的质量直接决定最终结果的相关性和价值。在实际测试中，过于宽泛或模糊的查询会导致规划器产生不切实际的蓝图（比如要求收集“所有优点”这种无法量化的属性）。因此，在输入查询时，尽量具体、包含可枚举的属性关键词会得到更好的效果，例如将“好的AI工具”改为“2024年发布的、支持API的AI代码生成工具及其定价和核心功能”。

3.2 搜索阶段：双引擎驱动的信息捕捞

有了蓝图，下一步就是去互联网上“撒网”。deep-seek没有自建爬虫和索引，而是集成了 Exa.ai 的搜索API。这里的一个关键设计是同时使用了关键词搜索和神经搜索。

关键词搜索：这是传统搜索引擎的方式，基于词频、链接分析等。它特别擅长找到那些“讨论”实体的内容，比如博客评测、论坛帖子、列表文章（“Top 10 XXX”）。这类内容通常包含丰富的观点、比较和细节描述，是后续“丰富”属性列的重要原料。
神经搜索：基于嵌入向量的语义搜索。它更擅长理解查询的深层意图，并找到语义上最相关的页面，即使这些页面没有完全包含查询中的关键词。这对于发现那些官方页面、产品主页或专业文档非常有效。

这种“双管齐下”的策略极大地提高了信息源的覆盖面和多样性。系统会并行执行这两种搜索，合并去重后，得到一个初步的URL列表。这个列表可能非常庞大（在示例中达到了356个来源），这正是“互联网规模”检索的体现。

3.3 提取阶段：高效精准的实体抓取

面对数百个网页，如何快速、准确地从中捞出我们关心的实体？这是技术上的一个亮点。传统方法可能是将整个网页内容扔给LLM，让它“找出所有关于XX工具的信息”，这非常消耗token且速度慢。

deep-seek采用了一种更精巧的方法：

首先，它使用一个轻量级的NLP模型（如 winkNLP）将网页文本分割成一个个句子。
然后，它在这些句子之间插入特殊的、唯一的标记符（可以想象成给每个句子缝上一个数字编号）。
接着，它将这个带有标记符的文本连同“实体类型”描述一起发送给LLM（如Claude）。
LLM的任务不是输出实体内容，而是输出标记符的范围。例如，它可能返回[45, 52]，表示从第45个标记符到第52个标记符之间的文本包含了目标实体的相关信息。
系统根据这个范围，精准地截取出对应的文本片段。

这个方法的好处是极致的Token效率。LLM不需要处理或输出冗长的原文，只需要理解和输出几个数字。提取出的文本片段（可能只是几个句子）就是对应实体的“原始资料”。这个过程可以批量进行，从而高速地从海量文本中定位出成百上千的实体提及。

3.4 丰富阶段：从提及到知识卡片

提取阶段我们得到了一堆实体的“名字”和它们出现的上下文片段。但我们的蓝图要求一个带有多个属性列的表格。丰富阶段的任务，就是为每一个找到的实体，去填充蓝图里定义的每一列。

这是通过一个内置的、较小的“答案引擎”智能体来完成的。对于每个实体（如“GitHub Copilot”）和每个属性列（如“定价”），这个智能体会：

回顾该实体所有被提取出来的上下文片段。
综合这些信息，尝试回答“GitHub Copilot的定价是多少？”这个问题。
生成答案，并附上一个置信度分数（0-1）。

置信度分数是另一个关键设计。它反映了LLM对生成答案的确信程度。分数低可能因为：信息源之间冲突（A说$10，B说$20）、信息源不足、或信息模糊。在最终呈现的UI中，低置信度的单元格会被高亮（如标黄），这相当于告诉用户：“这个数据不太确定，请谨慎参考”。

这个阶段是最耗时的，因为需要为（实体数量 × 属性列数量）个单元格逐一生成内容。但正是这一步，将零散的“提及”转化为了结构化的“知识”，赋予了检索结果真正的分析价值。

4. 实战部署与运行指南

4.1 环境准备与项目初始化

这个项目是一个Next.js应用，前端界面用于提交查询和展示结果，后端则运行着上述的智能体流水线。要跑起来，你需要准备以下几样东西：

Node.js环境：确保你的系统安装了Node.js（建议版本18或以上）。这可以通过node -v命令检查。
包管理器：项目支持 npm, yarn, pnpm, bun。任选其一安装即可。我个人推荐pnpm，速度更快，磁盘空间占用更少。
API密钥：这是核心依赖，需要两个：
- Anthropic API Key：用于调用Claude模型，执行规划、提取、丰富等所有LLM任务。去Anthropic官网注册申请。
- Exa.ai API Key：提供搜索服务。去Exa官网注册申请，他们通常有免费额度可供试用。

获取密钥后，在项目根目录创建.env.local文件（注意，根据Next.js惯例，有时是.env.local而非原文中的.env，建议查看项目最新文档），填入你的密钥：

ANTHROPIC_API_KEY="你的_claude_密钥" EXA_API_KEY="你的_exa_密钥"

重要提示：务必确保.env.local文件被添加到.gitignore中，避免将密钥意外提交到公开仓库。

4.2 安装依赖与启动开发服务器

克隆项目到本地后，进入项目目录，使用你选择的包管理器安装依赖：

# 使用 pnpm 示例 pnpm install

安装完成后，启动开发服务器：

pnpm dev

服务启动后，打开浏览器访问http://localhost:3000。你会看到一个简洁的界面，包含一个搜索框和一些预设的示例查询。

4.3 运行你的第一个查询

界面上展示的示例结果都是预先生成的静态数据，因为每次运行真实的智能体都需要消耗API credits，产生费用。要运行一次真实的查询，你需要：

在搜索框输入你的问题。建议从一个具体、边界清晰的问题开始，例如：“列出专注于AI生成视频的创业公司及其最新融资轮次和金额”，这比“AI视频工具”要好得多。
点击搜索。
立刻切换到你的终端。所有的运行日志都会在这里实时打印。你会看到流水线每个阶段的启动、进度和完成信息，这是理解系统工作的最佳方式。

一次完整的运行可能需要5分钟或更长时间，并且会产生费用。根据作者的提示，费用大约在$0.1 到 $3 美元之间，这主要取决于：

搜索出的网页数量：搜索阶段调用Exa API的费用。
提取出的实体数量：提取阶段调用Claude API处理文本的费用。
（实体数 × 属性数）：丰富阶段是费用大头，每个单元格都需要调用一次Claude。

成本控制建议：初次体验时，尽量使用属性列较少的查询（规划器生成的列少），或者先通过示例体会其能力。也可以在.env中暂时注释掉密钥，防止误操作。

5. 结果解读与置信度机制

查询完成后，页面会展示结果表格。这个表格是项目的核心输出，学会解读它至关重要。

表格结构：

行：每一个检索到的独立实体。
列：规划阶段定义的属性。第一列通常是实体名称，后续列是各种属性。
单元格：每个单元格包含属性值和一个小数字标签，这个标签就是置信度分数。

置信度分数详解：这是一个介于0到1之间的数字，直接反映了LLM在生成该单元格内容时的“把握”。它不是一个精确的科学度量，而是模型基于所提供上下文的一种自我评估。

高置信度（如0.8以上）：通常意味着多个信息源给出了相同或高度一致的信息。例如，多个科技新闻网站都报道某公司获得了A轮融资。
低置信度（如0.5以下，并被标黄）：可能由以下情况导致：
1. 信息冲突：源A说产品是免费的，源B说有付费计划。
2. 信息缺失：所有抓取的上下文中都没有提到该属性（如“员工数”）。
3. 信息模糊：上下文提到“价格实惠”，但无法明确是具体数字或范围。
4. 推断猜测：在缺乏直接信息时，LLM基于相关知识进行的合理推测（例如，一个2023年成立的AI初创公司，其总部“可能”在旧金山湾区）。

如何利用置信度：

快速筛选：你可以优先关注高置信度的数据，它们更可能准确。
定位疑点：低置信度单元格是你进行人工复核或深度搜索的绝佳起点。它明确指出了当前信息图谱中的“模糊地带”。
理解局限性：它直观地展示了当前AI检索系统的边界——无法解决信息冲突，也无法无中生有。

这个设计非常诚实和实用。它没有试图掩盖AI的不足，而是将其量化并呈现给用户，将最终的分析和判断权交还给人类。这正是“检索引擎”辅助决策，而非替代决策的哲学体现。

6. 性能优化与成本控制实战

对于这样一个调用多次LLM和搜索API的系统，性能和成本是不得不考虑的现实问题。经过一段时间的测试和代码梳理，我总结出以下几点优化思路：

6.1 优化搜索策略

搜索阶段是源头，控制好这里能显著影响下游的负载和成本。

调整搜索数量：在代码中，可以限制每次搜索返回的结果数量（如从默认的20条调整为10条）。对于很多查询，前10条最相关的结果已经包含了大部分关键实体。
混合搜索权重：可以尝试调整关键词搜索和神经搜索的比例。对于寻找具体产品、公司名称，神经搜索效率更高；对于收集评测、观点，关键词搜索更有效。根据查询类型动态调整。
使用搜索过滤器：Exa API支持按域名、日期等过滤。如果你只关心近期信息或特定网站（如只从科技博客获取信息），加上过滤器可以大幅提升结果质量和相关性。

6.2 优化提取与丰富阶段

这是消耗Token的主要环节。

批量处理：确保提取阶段是批量发送文本给LLM进行标记范围识别，而不是逐句处理。项目代码已经实现了这一点。
属性列精简：这是最有效的成本控制手段。规划器有时会生成过多或过于宽泛的属性列（如“优缺点”、“市场评价”）。可以在规划器输出后，加入一个“列筛选”步骤，或者引导用户查询时指定更具体的列（例如，“列出AI视频工具的名称、官网和主要功能”就比“介绍AI视频工具”要好）。
设置超时与重试：为每个LLM调用设置合理的超时时间，并实现指数退避的重试机制，避免因网络或API瞬时问题导致整个任务卡住。

6.3 实施缓存策略

对于相对稳定的查询（例如，“2023年独角兽公司列表”），其结果在短期内变化不大。

结果缓存：可以将最终生成的表格按查询语句进行哈希，缓存到本地数据库或Redis中。设置一个合理的过期时间（如24小时）。相同的查询在有效期内直接返回缓存结果，能节省大量费用和时间。
中间结果缓存：甚至可以缓存搜索阶段得到的URL列表，或者提取阶段得到的原始实体提及。这样，即使用户微调了查询（比如增加了某个属性列），系统也无需重新搜索和提取，只需重新执行丰富阶段即可。

6.4 监控与告警

在生产环境使用，必须建立监控。

成本监控：记录每次查询消耗的Token数（Anthropic）和搜索次数（Exa），并估算费用。可以设置每日或每查询的成本阈值，超过后自动停止或告警。
性能监控：记录每个阶段的耗时，特别是丰富阶段，它通常是瓶颈。监控有助于发现性能退化或异常查询。
结果质量监控：定期对一批标准查询的运行结果进行人工抽检，评估实体召回率、属性准确率等指标，确保系统没有因为某些调整而出现质量下滑。

7. 扩展方向与应用场景探讨

deep-seek作为一个基础架构，其潜力远不止于当前演示。结合其设计思路，我们可以探索许多扩展方向和应用场景。

7.1 架构扩展方向

实体消歧与融合：当前系统可能会将“Apple（公司）”和“Apple（水果）”或“MacBook Pro M2”和“MacBook Pro M3”识别为不同实体。未来可以引入实体链接技术，利用知识库（如Wikidata）或通过比较实体的属性，将指向同一现实对象的多个提及进行合并。
结果排序与筛选：目前结果表格是无序的。对于“最好的”、“最新的”这类查询，需要在流水线末端增加一个排序模块。这个模块可以基于属性值（如“融资额”）、置信度加权分数，甚至再调用一次LLM对实体进行综合排名来实现。
深度交互与浏览：当前仅处理搜索返回的页面摘要。对于某些深度内容（如学术论文PDF、需要登录的页面、多级菜单的网站），可以集成一个能够执行点击、翻页、表单填写等操作的“浏览器智能体”，进行深度信息抽取。
流式结果返回：目前需要等待全部流程结束才能看到结果。可以改造为流式架构，让前端能够实时看到新实体被发现、新单元格被填充的过程，体验会好很多。

7.2 垂直应用场景

市场与竞品分析：快速生成某一领域（如“CRM软件”）的所有玩家列表，并自动填充其功能、定价、融资情况、用户评价等字段，形成竞品分析矩阵初稿。
学术研究辅助：给定一个研究主题（如“对比学习在自然语言处理中的应用”），自动检索相关论文，提取论文标题、作者、发表会议/期刊、摘要、核心方法、实验结果等，构建文献综述表格。
投资研究：扫描新闻和财经网站，追踪特定行业（如“固态电池”）的创业公司动态，提取公司名、最新融资信息、技术亮点、合作伙伴等。
个人知识管理：针对你感兴趣的话题（如“React状态管理库”），定期运行检索，自动更新一个包含各库特点、流行度、更新时间的表格，帮你保持对领域动态的跟踪。

这个项目的核心价值在于它提供了一种范式：将LLM作为智能处理器，嵌入到一个可控的、模块化的软件流水线中，来完成特定类型的、规模化的信息处理任务。它没有追求通用人工智能的“全能”，而是在“信息检索与结构化”这个垂直点上做到了深度和实用性。对于开发者而言，其代码是学习如何设计复杂AI系统、如何将传统软件工程思想与LLM能力结合的绝佳范例。

查看全文

http://www.jsqmd.com/news/737825/