当前位置：首页 > news >正文

并行代理执行框架：提升深度搜索效率的核心技术

news 2026/6/25 11:21:56

1. 深度搜索与研究的并行代理执行框架解析

在信息爆炸的时代，如何高效地从海量数据中提取有价值的信息成为关键挑战。传统串行搜索方式在面对复杂查询时效率低下，而并行代理执行框架通过结构化工具调用和目标分解机制，实现了搜索效率的质的飞跃。

1.1 核心架构与工作原理

并行代理执行框架的核心在于将复杂查询任务分解为多个可并行执行的子任务，通过协调多个代理并行工作来加速信息获取和验证过程。这种架构主要包含三个关键组件：

任务分解器：将用户查询解析为多个相互独立或弱相关的子任务。例如在历史人物溯源案例中，"蓝眼睛"、"移民后结婚"、"不饮酒"等特征被识别为不同的搜索线索。
并行执行引擎：采用DAG（有向无环图）模型管理子任务间的依赖关系，允许无依赖的子任务同时执行。系统会动态评估各子任务的进展，当某个子任务受阻时，自动调整资源分配。
证据整合模块：收集各子任务的中间结果，进行交叉验证和综合推理。该模块采用强化学习优化验证策略，确保最终结论的可靠性。

提示：在实际应用中，系统会为每个子任务设置超时机制和重试策略，避免单个失败子任务阻塞整个查询流程。

1.2 工具链设计与调用策略

框架通过精心设计的工具链实现从粗粒度检索到细粒度验证的完整工作流：

# 典型工具调用流程示例 def execute_query(query): # 第一阶段：广度搜索 search_results = web_search(query) # 第二阶段：深度验证 verified_data = [] for result in search_results[:5]: # 限制验证数量以提高效率 verified_data.append(crawl_page( url=result['url'], query=query )) # 第三阶段：证据整合 return consolidate_evidence(verified_data)

工具调用遵循几个关键原则：

分层验证：先通过web_search获取候选结果，再用crawl_page进行精细验证
结果限制：通常只验证排名前5的搜索结果，平衡效率与准确性
目标导向：crawl_page需要明确的信息需求描述，避免无关内容干扰

1.3 性能优化技术

为了提升系统响应速度和质量，框架采用了多种优化技术：

异步执行模型：子任务间尽可能采用非阻塞调用，通过回调机制处理依赖关系
缓存机制：对高频查询和已验证结果建立多级缓存
负载均衡：动态分配计算资源给进展顺利的子任务
渐进式呈现：允许部分结果先返回，同时后台继续完善其他子任务

在历史人物溯源案例中，这些优化使得SMTL-30B相比传统串行搜索将答案定位速度提升4倍。

2. 核心工具与数据处理流程

2.1 工具集设计原理

系统采用最小但表达能力强的工具集设计理念，包含两个核心工具：

web_search工具：
- 基于Serper API接入搜索引擎
- 默认返回排名前5的结果
- 每个结果包含标题、摘要和URL三要素
- 支持查询重写和结果过滤
crawl_page工具：
- 使用Jina Reader API获取页面内容
- 采用DeepSeek-V3.2模型进行目标导向的摘要生成
- 支持结构化数据提取
- 包含反爬虫和容错机制

工具调用遵循"宽进严出"原则：初期允许较宽松的搜索，后期进行严格验证。这种设计在保证召回率的同时控制准确率。

2.2 数据构建与实体提取

系统采用严格的证据导向方法构建知识库：

实体中心信息提取流程：

输入结构化实体元数据
分析内容摘录中的显式证据
输出标准化JSON格式，包含：
- 关键属性
- 表面形式
- 别名列表

{ "key_attributes": { "founded_year": 1998, "headquarters": "Beijing" }, "surface_forms": ["ABC Inc", "ABC"], "aliases": ["ABC Corporation"] }

事实性评估采用三级评分体系：

高事实性(80-100分)：包含具体数字、时间、地点等客观事实
中等事实性(50-79分)：主要是定性描述但包含一些具体信息
低事实性(0-49分)：抽象、主观或通用描述

2.3 描述生成与问题构建

系统采用层次化方法生成实体描述和研究问题：

事实提取：从相关信息的数字、时间、位置、事件等客观元素
关系摘要：用一句话抽象出关系类型
问题构建：创建需要多跳推理的研究问题

注意：描述生成严格避免使用主观词汇，所有陈述必须有客观依据。问题设计强调开放性和多证据支持，避免单一正确答案。

3. 系统提示与执行流程

3.1 深度搜索任务流程

深度搜索系统提示强调结构化执行和明确验证：

计划阶段：
- 分解任务为1-5个并行目标
- 每个目标设置1-5个备用执行路径
- 明确定义成功标准
执行阶段：
- 并行推进独立目标
- 按顺序尝试各路径
- 定期评估进展并调整计划
验证阶段：
- 交叉验证不同来源的证据
- 确认所有目标都已解决
- 生成简洁准确的最终答案

典型执行序列：

<plan> → <tool_call>×N → <plan_refine> → <tool_call>×N → <answer>

3.2 深度研究任务流程

深度研究采用更细粒度的子任务导向协议：

子任务列表：将复杂问题分解为独立子任务
子任务执行：每个子任务遵循分析→计划→工具调用循环
答案合成：整合各子任务答案形成最终报告

标记协议示例：

<subtask_list> <subtask>背景研究</subtask> <subtask>现状分析</subtask> </subtask_list> <subtask> <analysis>需要了解该技术的历史发展脉络</analysis> <plan>1. 搜索创始论文 2. 查找关键里程碑</plan> <tool_call>web_search(query="技术名称 创始论文")</tool_call> <tool_response>...</tool_response> <subtask_answer>该技术始于2005年XX论文...</subtask_answer> </subtask>