当前位置：首页 > news >正文

LangGraph多Agent协作架构实战：Network与Supervisor双模式详解

news 2026/8/2 0:44:23

1. 项目概述：当AI不再单打独斗，而是组成一支能开会、能分工、能复盘的“数字团队”

你有没有试过让一个大模型同时干五件事？查资料、写报告、画图表、校对语法、再翻译成英文——结果它要么在中间突然编造数据，要么把图表描述写成散文诗，最后交上来一份逻辑自洽但事实全错的“杰作”。这不是模型不行，是任务设计错了。就像让一个外科医生既主刀、又麻醉、又写病历、又管器械、还负责术后随访，不是他能力不够，是职责边界模糊导致系统性失稳。LangGraph解决的，正是这个根本问题：它不追求“一个模型通吃所有”，而是构建一套让多个轻量级、专业化AI代理（Agent）像人类专家团队一样协作的基础设施。这里的关键词不是“大”，而是“分”；不是“强”，而是“准”；不是“全能”，而是“各司其职”。Network Agent架构，就是让每个代理像部门一样并行运转，靠消息总线传递结构化数据；Supervisor Agent架构，则引入一位“项目经理”，由它动态拆解任务、分派子项、汇总结果、处理异常。我去年用这套思路重构了一个客户舆情分析系统，原来需要3个工程师盯72小时的日报生成流程，现在变成5个专用Agent自动轮转，从原始微博爬取、情感倾向判定、竞品对比热力图生成，到最终PPT大纲输出，全程无人干预，错误率下降67%，响应时间从45分钟压缩到92秒。这篇文章不讲虚概念，只拆解真实代码里怎么定义Agent的“岗位说明书”，怎么设计它们之间的“会议纪要”格式，怎么让Supervisor在发现某环节卡住时主动换人重试——所有内容都来自我在三个生产环境项目中踩坑、调试、压测后沉淀下来的实操手册。

2. 核心设计逻辑：为什么必须放弃“单体智能”，转向“协作智能”

2.1 单体Agent的三大硬伤与协作架构的底层解法

单体Agent（即一个LLM承担全部任务）在工程实践中暴露出三个无法绕过的结构性缺陷，而LangGraph的Network/Supervisor双架构正是针对这三点精准设计的：

第一，上下文长度的物理天花板。当前主流模型上下文窗口普遍在128K token左右，看似宽裕，但实际业务中极易触顶。比如做一份行业深度报告，需加载20份PDF财报（每份平均8K token）、15条新闻摘要（每条1.2K）、3个竞品官网爬取文本（每份5K），光原始材料就超180K token。单体Agent要么强制截断关键数据，要么反复请求模型“记住上文”，后者会导致推理链断裂和幻觉加剧。Network架构的解法是“数据流切片”：Researcher Agent只接收URL列表，专注网页解析与事实抽取，输出结构化JSON（如{"company": "X", "revenue_2024": "2.3B", "source_url": "https://..."}）；ChartGenerator Agent只接收这个JSON，调用Matplotlib API生成图表，完全不接触原始网页。数据在Agent间以精简的schema传递，单次传输控制在200 token内，彻底规避上下文溢出。

第二，错误传播的雪崩效应。单体Agent的错误是链式放大的。若第一步事实检索出错（如把“腾讯2023年营收5600亿”误读为“560亿”），后续所有分析、图表、结论都将基于错误前提推导，且模型自身无法回溯验证。Supervisor架构引入“责任隔离”机制：每个子任务由独立Agent执行，Supervisor不参与具体计算，只做三件事——分发任务（assign）、校验结果（validate）、触发重试（retry）。当ChartGenerator返回的图表坐标轴数值明显偏离Researcher提供的营收数据范围时，Supervisor会立即拦截该图表，标记“数值校验失败”，并仅重发该子任务给备用Agent（如切换至更高精度的GPT-4-turbo实例），其他环节不受影响。这种“故障域隔离”让系统稳定性提升3个数量级。

第三，能力耦合导致的维护灾难。单体Agent的Prompt工程如同在豆腐上雕花——改一句提示词，可能让报告生成变流畅，却让数据校验变迟钝。更致命的是，当业务方要求新增“生成短视频脚本”功能时，你不得不在原有Prompt里塞入全新指令集，导致整个系统变得臃肿不可测。Network架构实现“能力解耦”：新增VideoScriptAgent只需定义其输入schema（{"industry_trend": "...", "key_data": [...] }）和输出schema（{"scene_list": [{"visual": "...", "voiceover": "..."}]}），通过LangGraph的add_edge()方法将其接入现有流程图即可。原Researcher和ChartGenerator的代码、Prompt、测试用例全部零修改。我们上个月为客户增加“合规风险扫描”模块，仅用2小时就完成开发、测试、上线，而传统单体方案预估需5人日。

提示：不要被“多Agent=更复杂”的直觉误导。LangGraph的真正价值在于将复杂性从运行时转移到设计时。你花2天设计清晰的Agent接口和数据流，换来的是未来6个月无需重启服务就能灵活增删功能。

2.2 Network与Supervisor架构的本质差异：何时该用“并行流水线”，何时该用“智能调度中心”

很多初学者混淆Network和Supervisor，以为只是命名不同。实际上，二者代表两种截然不同的系统哲学，选择错误会导致架构性返工。我用一个真实案例说明判断逻辑：

场景：实时股票交易信号生成系统
需求：每分钟接收100支股票行情数据 → 对每支股票独立执行技术指标计算（MACD、RSI等）→ 生成买卖建议 → 汇总成交易清单。

Network架构适用性分析：

✅ 任务高度同质化：100支股票的计算逻辑完全一致，无依赖关系
✅ 数据天然可分片：每支股票数据独立，无跨股票关联计算
✅ 结果无需协调：买卖建议互不影响，直接拼接即可
此时采用Network架构，定义一个StockAnalyzerAgent，通过LangGraph的add_node("analyzer", StockAnalyzerAgent)注册，再用add_edge("start", "analyzer")和add_edge("analyzer", "end")构建单向流水线。系统启动后，LangGraph自动将100条股票数据并行分发给多个analyzer实例（支持配置并发数），效率提升近100倍。

Supervisor架构适用性分析：
场景：跨境电商选品决策系统
需求：收到新品需求（如“儿童防晒霜”）→ Researcher搜索竞品销量/差评 → LegalAgent核查成分合规性 → PricingAgent分析成本毛利 → Supervisor综合所有信息，决定是否上架及定价策略。

❌ Network架构在此失效的原因：

❌ 任务存在强依赖：LegalAgent必须等待Researcher输出的“含酒精成分列表”才能启动
❌ 决策需全局视角：Supervisor需对比Researcher的“差评高频词”（如“黏腻”）、LegalAgent的“禁用成分”、PricingAgent的“竞品均价”，才能判断“是否需调整配方并重新定价”
❌ 异常处理需上下文：若LegalAgent返回“成分X在欧盟禁用”，Supervisor需主动向Researcher追加查询“成分X在目标市场的替代方案”

此时必须采用Supervisor架构。核心是定义SupervisorAgent的“决策循环”：

接收初始需求（{"product_category": "children_sunscreen"}）
调用Researcher获取基础情报
基于Researcher结果，动态生成LegalAgent和PricingAgent的输入参数（如LegalAgent的input = {"ingredients": ["alcohol", "oxybenzone"]}）
并行调用Legal/Pricing，但设置超时（timeout=30s）和重试策略（max_retries=2）
汇总结果，执行if-else决策树（如legal_status=="banned" and market=="EU" → 触发researcher追加查询）

LangGraph通过StateGraph实现此逻辑，关键代码是supervisor.invoke(state, config={"recursion_limit": 50})，其中recursion_limit防止无限循环——这是生产环境必设的安全阀。

2.3 LangGraph状态机的核心设计哲学：为什么“状态”比“函数”更重要

初学者常困惑：为什么LangGraph不直接封装成一堆Agent类，而是强制使用StateGraph？答案藏在AI系统的本质缺陷里——非确定性。同一个Prompt，同一段输入，模型可能给出两个逻辑自洽但结论相反的回答。传统编程中，函数f(x)=y是确定的；而LLM的f(x)≈y₁或y₂，具有概率性。LangGraph的状态机设计，正是为驯服这种不确定性。

StateGraph中的state不是一个简单的字典，而是一个带版本控制的、可审计的、支持条件分支的决策快照。以Supervisor为例，其state结构定义如下：

class AgentState(TypedDict): # 初始输入 query: str # 用户原始需求 # 各Agent执行结果（键名即Agent名称） researcher_result: Optional[dict] # {"top_competitors": [...], "key_issues": [...]} legal_result: Optional[dict] # {"status": "compliant", "issues": []} pricing_result: Optional[dict] # {"recommended_price": 89.9, "margin": 0.45} # 运行时元数据（关键！） step_count: int # 当前执行步数，用于防死循环 last_error: Optional[str] # 最近一次错误，用于重试决策 retry_history: List[str] # 错误类型记录，用于分析系统脆弱点

这个设计带来三大实操优势：
第一，调试革命化。当系统在第7步崩溃时，你无需重跑全流程。直接加载崩溃时刻的state快照（LangGraph自动保存），修改Supervisor的决策逻辑，再从第7步resume。我们曾用此功能在15分钟内定位到LegalAgent因欧盟法规更新导致的解析错误，而传统方式需耗时3小时复现。

第二，审计可追溯。每次state变更都记录timestamp、agent_name、input_hash、output_hash。当客户质疑“为何推荐高价”，你可精确回溯：第3步Researcher返回的竞品均价中位数为¥78，第5步PricingAgent据此计算出¥89.9，所有中间数据哈希值可验证未被篡改。

第三，灰度发布可控。新增Agent时，可先将其输出写入state的shadow_result字段（如pricing_shadow_result），与原pricing_result并行运行。通过对比两者输出差异率（diff_rate < 0.5%），再逐步将流量切至新Agent——这是我们在金融风控场景中零事故升级的关键保障。

注意：永远不要在state中存储原始大文本（如整篇PDF内容）。正确做法是存储文件ID+关键摘要，用外部向量库（如Chroma）按需检索。LangGraph的state应保持轻量，这是性能的生命线。

3. 实操细节拆解：从零构建Researcher+ChartGenerator双Agent网络

3.1 环境准备与依赖锁定：为什么pip install langgraph不等于开箱即用

LangGraph虽标榜“Python原生”，但生产环境部署时，依赖冲突是最高频的故障源。我统计了过去6个月客户报障记录，47%的“Agent不启动”问题源于依赖版本不兼容。以下是经过23个生产环境验证的最小可行依赖集：

# 必须严格锁定的版本（2025年实测稳定） pip install langgraph==0.1.42 \ langchain-core==0.2.28 \ langchain-community==0.2.12 \ openai==1.42.0 \ httpx==0.27.0 \ pydantic==2.8.2 \ tenacity==8.4.2 # 重试库，Supervisor异常处理基石

关键避坑点：

❌ 避免使用langchain主包：它捆绑了大量非必要依赖（如SQLAlchemy、Pandas），易与项目已有库冲突。LangGraph官方明确推荐langchain-core+langchain-community的拆分安装。
❌httpx版本必须≤0.27.0：0.28.0+版本与LangGraph的异步事件循环存在竞态条件，导致Agent在高并发下随机挂起（现象：CPU占用100%但无日志输出）。
✅tenacity是Supervisor重试机制的底层支撑：其@retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))装饰器，让Supervisor在API超时时自动指数退避重试，避免雪崩。

初始化LangGraph时，务必显式配置异步事件循环：

import asyncio from langgraph.graph import StateGraph from langgraph.checkpoint.memory import MemorySaver # 生产环境必须配置checkpoint，否则状态丢失 checkpointer = MemorySaver() # 显式创建事件循环（避免Jupyter等环境的隐式循环冲突） loop = asyncio.new_event_loop() asyncio.set_event_loop(loop) # 构建图时传入checkpointer builder = StateGraph(AgentState) builder.add_node("researcher", researcher_agent) builder.add_node("chart_generator", chart_agent) builder.set_entry_point("researcher") builder.add_edge("researcher", "chart_generator") builder.add_edge("chart_generator", "__end__") # 编译图时指定checkpointer graph = builder.compile(checkpointer=checkpointer)

实操心得：在Docker容器中部署时，必须在Dockerfile中添加ENV PYTHONUNBUFFERED=1，否则LangGraph的日志（尤其是state变更日志）会被缓冲，导致调试时看不到实时执行流。

3.2 Researcher Agent的“岗位说明书”：如何让AI真正读懂网页而非复制粘贴

Researcher Agent绝非简单调用requests.get()+llm.invoke()。其核心挑战在于：如何让LLM理解“什么是可靠信源”，而非把百度百科和知乎营销号同等对待。我们采用三层过滤机制：

第一层：URL可信度预筛（Pre-Filter）
在调用LLM前，用正则和域名白名单快速剔除低质源：

def is_trusted_source(url: str) -> bool: # 白名单（政府/学术/权威媒体） trusted_domains = [ r"^.+\.gov\.cn$", r"^.+\.ac\.cn$", r"^www\.reuters\.com$", r"^www\.bloomberg\.com$" ] # 黑名单（内容农场/聚合站） untrusted_patterns = [ r"zhihu\.com/question/\d+", # 知乎问答（主观性强） r"toutiao\.com/i\d+", # 今日头条（算法推荐内容） r"weixin\.qq\.com/s/.+" # 微信公众号（需登录，内容不公开） ] return any(re.match(domain, url) for domain in trusted_domains) \ and not any(re.search(pattern, url) for pattern in untrusted_patterns)

第二层：网页内容结构化解析（Parse & Extract）
不用BeautifulSoup硬解析，而是用LangChain的Html2TextTransformer配合CSS选择器提取正文：

from langchain_community.document_transformers import Html2TextTransformer transformer = Html2TextTransformer() # 优先提取<article>或<main>标签内容， fallback到#content docs = transformer.transform_documents( [web_page_doc], include_metadata=True, tags_to_extract=["article", "main", "#content"] ) # 输出结构化文档：metadata包含url、title、publish_date

第三层：LLM事实抽取Prompt工程（The Real Magic）
这才是Researcher的灵魂。我们不用泛泛的“请总结网页”，而是定义严格的Schema和校验规则：

# Pydantic模型强制结构化输出 class ResearchResult(BaseModel): key_facts: List[str] = Field(description="3-5个不可辩驳的事实，需含具体数值和单位") source_urls: List[str] = Field(description="所有事实对应的原始URL，必须可访问") confidence_score: float = Field(description="0.0-1.0，对事实准确性的自我评估") # Prompt模板（关键！） prompt = ChatPromptTemplate.from_messages([ ("system", """你是一名严谨的行业研究员。请严格按以下规则工作： 1. 只从提供的网页内容中提取事实，禁止任何推测、联想或补充 2. 每个key_fact必须包含：具体数值 + 单位 + 主体（如'腾讯2023年营收5600亿元人民币'） 3. source_urls必须与key_fact一一对应，确保每个事实都能在对应URL中找到原文 4. confidence_score：若原文明确写出数值，给0.95；若需简单计算（如'同比增长23%'），给0.85；若为作者观点，给0.0"""), ("human", "网页内容：{page_content}\n\n请按ResearchResult格式输出") ])

实测效果对比：

传统Prompt（“请总结网页”）：事实准确率62%，35%的“事实”实为作者观点
我们的三层机制：事实准确率98.7%，且所有key_facts均可在source_urls中100%定位原文位置（通过<mark>标签高亮）

注意：Researcher的输出必须包含confidence_score。Supervisor会根据此分数决定是否信任该结果——若低于0.8，自动触发二次验证（如调用另一个LLM模型重抽）。

3.3 ChartGenerator Agent的“可视化契约”：让AI生成的图表能直接放进PPT

ChartGenerator Agent的常见误区是让它“生成图表图片”，这导致两大问题：一是图片无法编辑（客户要求改配色时需重跑整个流程），二是无法验证数据真实性（图片里的柱状图数值是否真等于Researcher输出？）。我们的解法是：Agent只输出可执行的Python代码，由安全沙箱执行渲染。

Step 1：定义严格的图表Schema

class ChartSpec(BaseModel): chart_type: Literal["bar", "line", "pie", "heatmap"] = Field(description="图表类型") title: str = Field(description="图表标题，需体现核心结论") data: List[Dict[str, Union[str, float, int]]] = Field(description="行数据，每行必须含x和y字段") x_label: str = Field(description="X轴标签") y_label: str = Field(description="Y轴标签") # 关键！允许用户指定配色方案，避免AI自由发挥 color_scheme: Optional[List[str]] = Field(default=None, description="十六进制颜色列表，如['#1f77b4', '#ff7f0e']")

Step 2：Prompt强制代码生成

prompt = ChatPromptTemplate.from_messages([ ("system", """你是一名数据可视化工程师。请严格按以下规则工作： 1. 只输出Python代码，不输出任何解释、注释或markdown 2. 代码必须能直接在Python 3.11环境中运行，仅依赖matplotlib和numpy 3. 所有数据必须来自researcher_result，禁止虚构数值 4. 若researcher_result中缺少必要字段（如y值），输出空列表[]"""), ("human", """researcher_result: {researcher_result} 请生成一个{chart_type}图，标题为'{title}'，X轴'{x_label}'，Y轴'{y_label}'""") ])

Step 3：安全沙箱执行（Production Must）

import matplotlib matplotlib.use('Agg') # 无GUI模式 import matplotlib.pyplot as plt import numpy as np def execute_chart_code(chart_spec: ChartSpec) -> bytes: # 构建安全执行环境 safe_globals = { 'plt': plt, 'np': np, 'Figure': plt.Figure, 'Axes': plt.Axes, 'show': lambda: None # 禁止show() } # 动态生成代码字符串（注入data和spec） code = f""" import matplotlib.pyplot as plt import numpy as np fig, ax = plt.subplots(figsize=(10, 6)) # 数据注入 data = {chart_spec.data} x_vals = [item['x'] for item in data] y_vals = [item['y'] for item in data] # 绘图逻辑 ax.{chart_spec.chart_type}(x_vals, y_vals) ax.set_title('{chart_spec.title}') ax.set_xlabel('{chart_spec.x_label}') ax.set_ylabel('{chart_spec.y_label}') # 保存为bytes from io import BytesIO buf = BytesIO() plt.savefig(buf, format='png', bbox_inches='tight') plt.close() buf.seek(0) result = buf.read() """ # 在受限环境中执行 local_vars = {} exec(code, safe_globals, local_vars) return local_vars['result'] # 返回PNG二进制流

为什么这比直接生成图片强？

✅可验证性：Supervisor可解析chart_spec.data，与researcher_result.key_facts交叉验证（如检查y_vals是否匹配“营收5600亿”）
✅可编辑性：客户说“把柱状图改成蓝色”，只需修改color_scheme字段，无需重跑Researcher
✅安全性：exec()在沙箱中运行，无法访问文件系统或网络，杜绝代码注入风险

4. Supervisor Agent实战：构建一个会思考、会纠错、会学习的“AI项目经理”

4.1 Supervisor的决策循环：从状态机到真实业务逻辑的映射

Supervisor不是万能胶水，而是有明确职责边界的“决策中枢”。其核心循环必须包含四个原子操作：分派（Assign）、监听（Listen）、判断（Judge）、行动（Act）。我们以跨境电商选品系统为例，展示完整代码骨架：

from langgraph.graph import StateGraph, END from typing import Dict, Any, Optional class SupervisorState(TypedDict): query: str researcher_result: Optional[dict] legal_result: Optional[dict] pricing_result: Optional[dict] decision: Optional[str] # "approve", "reject", "revise" revision_plan: Optional[str] # 如"调整配方，替换酒精为甘油" def supervisor_node(state: SupervisorState) -> Dict[str, Any]: # Step 1: 分派 - 基于当前状态决定下一步 if not state["researcher_result"]: return {"next": "researcher"} elif not state["legal_result"]: return {"next": "legal"} elif not state["pricing_result"]: return {"next": "pricing"} else: # Step 2: 判断 - 执行业务规则引擎 decision = "approve" revision_plan = None # 规则1：合规性一票否决 if state["legal_result"]["status"] == "banned": decision = "reject" revision_plan = f"成分{state['legal_result']['banned_ingredient']}在{state['legal_result']['market']}禁用" # 规则2：价格竞争力阈值 elif (state["pricing_result"]["recommended_price"] > state["researcher_result"]["competitor_avg_price"] * 1.3): decision = "revise" revision_plan = "价格过高，建议降至竞品均价1.2倍以内" # Step 3: 行动 - 更新状态并返回路由 return { "decision": decision, "revision_plan": revision_plan, "next": "end" if decision != "revise" else "researcher" # revise时重走researcher } # 构建图（关键！使用conditional edge实现动态路由） builder = StateGraph(SupervisorState) builder.add_node("researcher", researcher_agent) builder.add_node("legal", legal_agent) builder.add_node("pricing", pricing_agent) builder.add_node("supervisor", supervisor_node) # 设置入口点 builder.set_entry_point("supervisor") # 定义条件边：supervisor的返回值决定走向 builder.add_conditional_edges( "supervisor", lambda x: x["next"], # 根据supervisor返回的"next"字段路由 { "researcher": "researcher", "legal": "legal", "pricing": "pricing", "end": END } ) # 添加常规边（Agent执行完返回supervisor） builder.add_edge("researcher", "supervisor") builder.add_edge("legal", "supervisor") builder.add_edge("pricing", "supervisor") graph = builder.compile()

这个设计的精妙之处在于：

Supervisor本身不调用任何LLM，它只是一个规则引擎。所有AI调用由researcher/legal/pricing节点完成，职责分离清晰。
add_conditional_edges让流程图具备“智能路由”能力，而非固定路径。当supervisor返回{"next": "legal"}，图自动跳转，无需硬编码if-else。
revision_plan字段是人工介入的黄金接口：当决策为revise时，系统自动生成可读的修订说明，运营人员可一键确认或修改后重提交。

4.2 Supervisor的异常处理：如何让AI系统像人类一样“遇到问题先重试，再求助”

生产环境中，Agent失败是常态。Supervisor的异常处理能力，直接决定系统SLA。我们采用三级防御体系：

第一级：Agent内部重试（Tenacity）
每个Agent节点都包裹重试逻辑，应对瞬时API错误：

from tenacity import retry, stop_after_attempt, wait_exponential @retry( stop=stop_after_attempt(3), # 最多重试3次 wait=wait_exponential(multiplier=1, min=4, max=10), # 指数退避：4s, 8s, 10s reraise=True # 重试失败后抛出异常，交由Supervisor处理 ) def researcher_agent(state: SupervisorState) -> Dict[str, Any]: # 实际调用逻辑 result = llm.invoke(prompt.format(query=state["query"])) return {"researcher_result": result}

第二级：Supervisor降级策略（Fallback）
当Agent连续失败，Supervisor启动备选方案：

def supervisor_node(state: SupervisorState) -> Dict[str, Any]: try: # 尝试主流程 return main_decision_logic(state) except Exception as e: # 捕获所有异常，启动降级 if state.get("retry_count", 0) < 2: # 降级1：切换到更慢但更准的模型 logger.warning(f"主Agent失败，启用降级模型。Error: {e}") return { "next": "researcher_fallback", # 路由到备用Agent "retry_count": state.get("retry_count", 0) + 1 } else: # 降级2：返回人工审核队列 logger.error(f"降级失败，转入人工审核。Error: {e}") send_to_human_queue(state["query"]) return {"decision": "pending_human_review", "next": END}

第三级：根因分析与自愈（Learning Loop）
Supervisor持续记录失败模式，实现被动学习：

# 在supervisor_node末尾添加 def log_failure_pattern(state: SupervisorState, error: str): # 提取错误特征 error_type = "api_timeout" if "timeout" in error.lower() else \ "parse_error" if "json" in error.lower() else "unknown" # 记录到Redis（作为轻量数据库） redis_client.hincrby( "supervisor_failure_stats", f"{error_type}:{state.get('current_agent', 'unknown')}", 1 ) # 若某错误类型24小时内超10次，触发告警 if int(redis_client.hget("supervisor_failure_stats", f"{error_type}:researcher") or "0") > 10: alert_dev_team(f"Researcher Agent {error_type} 频发，请检查上游数据源") # Supervisor自动调用此函数 log_failure_pattern(state, str(e))

实测效果：

未启用Supervisor异常处理：单日失败率12.3%，平均恢复时间47分钟
启用三级防御后：失败率降至0.8%，92%的故障在30秒内自动恢复，剩余8%进入人工队列，平均响应时间缩短至3.2分钟

提示：永远不要在Supervisor中写except Exception as e: pass。静默失败是系统最危险的敌人。每个except块必须包含logger.error()和明确的降级动作。

4.3 Supervisor的“人类在环”（Human-in-the-Loop）集成：当AI不确定时，如何优雅地请人帮忙

最成熟的AI系统，不是取代人类，而是知道何时该“举手提问”。Supervisor的Human-in-the-Loop设计，是我们客户续约率高达94%的关键。实现分三步：

Step 1：定义“举手阈值”
在Supervisor决策逻辑中，加入置信度判断：

def supervisor_node(state: SupervisorState) -> Dict[str, Any]: # ... 其他逻辑 # 计算整体置信度（加权平均） confidence = 0.0 weight_sum = 0.0 if state["researcher_result"]: confidence += state["researcher_result"]["confidence_score"] * 0.4 weight_sum += 0.4 if state["legal_result"]: confidence += state["legal_result"]["confidence_score"] * 0.3 weight_sum += 0.3 if state["pricing_result"]: confidence += state["pricing_result"]["confidence_score"] * 0.3 weight_sum += 0.3 overall_confidence = confidence / weight_sum if weight_sum > 0 else 0.0 # 阈值设为0.75（经A/B测试确定） if overall_confidence < 0.75: return { "decision": "pending_human_review", "review_reason": f"综合置信度{overall_confidence:.2f}低于阈值0.75", "next": END }

Step 2：生成人类可读的待审清单
当触发人工审核，Supervisor自动生成结构化工单：

def generate_human_review_ticket(state: SupervisorState) -> dict: ticket = { "id": f"TICKET-{int(time.time())}", "query": state["query"], "agent_outputs": {}, "confidence_scores": {} } for agent_name in ["researcher", "legal", "pricing"]: result = state.get(f"{agent_name}_result") if result: ticket["agent_outputs"][agent_name] = result # 提取confidence字段（各Agent约定统一字段名） ticket["confidence_scores"][agent_name] = result.get("confidence_score", 0.0) # 关键：标注矛盾点（让审核员一眼看到问题） contradictions = [] if (state.get("researcher_result", {}).get("competitor_avg_price", 0) > state.get("pricing_result", {}).get("recommended_price", 0) * 1.5): contradictions.append("Researcher竞品均价(¥{:.0f})远高于Pricing建议价(¥{:.0f})".format( state["researcher_result"]["competitor_avg_price"], state["pricing_result"]["recommended_price"] )) ticket["contradictions"] = contradictions return ticket # 在supervisor_node中调用 if overall_confidence < 0.75: ticket = generate_human_review_ticket(state) send_to_slack_channel(ticket) # 发送至运营团队Slack频道 return {"decision": "pending_human_review", "ticket_id": ticket["id"]}

Step 3：人工反馈闭环
审核员在Web界面确认后，系统自动注入修正数据：

# 假设人工审核API @app.post("/review/{ticket_id}/approve") def approve_review(ticket_id: str, payload: dict): # 1. 从Redis加载原始state original_state = redis_client.hgetall(f"state:{ticket_id}") # 2. 用人工修正覆盖对应字段 original_state.update({ "researcher_result": payload.get("researcher_correction"), "legal_result": payload.get("legal_correction"), "pricing_result": payload.get("pricing_correction") }) # 3. 重新触发Supervisor决策（从当前state继续） graph.invoke(original_state, config={"thread_id": ticket_id}) return {"status": "resumed"}

这个闭环的价值：

审核员看到的不是原始网页，而是AI已提炼的结构化数据+矛盾点标注，审核时间从平均12分钟降至90秒
每次人工干预都成为Supervisor的训练数据，系统越用越准
客户可随时查看所有人工审核记录，满足金融/医疗行业的审计要求

5. 常见问题与排查技巧实录：那些文档里不会写的血泪教训

5.1 “Agent卡死不动”问题排查：从日志到内存的全链路诊断

现象：调用graph.invoke()后，程序长时间无响应，CPU占用率飙升至100%，但无任何错误日志输出。

根本原因：LangGraph的递归调用在特定条件下会陷入无限循环，尤其当Supervisor的next路由指向自身时。

排查步骤：

开启LangGraph详细日志（关键！）
```
import logging logging.getLogger("langgraph").setLevel(logging.DEBUG) logging.getLogger("langgraph.checkpoint").setLevel(logging.DEBUG)
```
此时你会看到类似DEBUG:langgraph:Entering node 'supervisor' with state hash xxx的日志，若发现同一hash反复出现，即确认无限循环。
检查Supervisor的recursion_limit
```
# 错误示范：
```

查看全文

http://www.jsqmd.com/news/989542/