当前位置：首页 > news >正文

医疗相关 Agent 工具会先卷工程能力，不会先卷模型参数

news 2026/7/16 0:43:00

医疗 Agent 工具的竞争，不会一开始就落在“谁的模型参数更大”上，而会先落在工程能力上：能不能稳定接入工具、能不能记录过程、能不能追溯输出、能不能被机构规则约束。本文从医疗健康技术开发者视角，拆解一个面向医学文献处理、科研辅助和内部知识问答的 Agent 工具链应该如何设计。本文只讨论技术架构和工程流程示例，不提供诊断、治疗、分诊或用药建议。

为什么医疗 Agent 先卷工程能力

医疗健康场景里的 Agent 通常不是一个简单聊天框，而是一个带约束的任务执行系统。它可能需要检索医学文献、读取机构知识库、调用翻译服务、生成摘要、标注引用来源，并把每一步记录下来。

模型能力当然重要，但在真实系统里，模型只负责一部分推理和生成。开发者更早遇到的问题通常是：

工具调用是否稳定，失败后如何重试
文献检索、摘要生成、引用追踪如何串成工作流
每次输出使用了哪些输入材料，能否审计
用户权限、数据范围、日志留存如何治理
生成结果是否能被规则拦截和人工复核

如果这些工程能力没有建立起来，换更大的模型也只能放大不确定性。医疗相关工具链更需要“可控执行”，而不是单纯追求“更会说”。

一个医疗 Agent 工具链应拆成哪些层

下面是一个常见的工程拆分。这里以“医学文献辅助阅读 Agent”为例，任务范围限定在文献检索、摘要、术语解释和引用整理，不涉及临床决策。

这个架构里，Agent 不应该直接“想做什么就调用什么”。更稳妥的做法是把任务拆给 workflow engine，由它控制状态、超时、重试和人工确认节点。

几个关键模块的职责如下：

Policy Guard：检查请求范围，过滤不允许的任务类型
Workflow Engine：管理任务状态、步骤依赖和失败恢复
Tool Calling Layer：统一封装外部工具，避免模型直接拼接请求
Result Validator：检查引用、格式、敏感表达和示例规则
Audit Log：记录输入、工具调用、模型版本、输出和人工修改

这类拆分会增加一些开发成本，但能换来可维护性。尤其在医疗健康场景，后续排查问题时，只有最终回答是不够的，必须知道它是如何产生的。

工作流比提示词更值得优先设计

在 Demo 阶段，开发者可能会把所有要求写进一个长 Prompt：请检索、请总结、请给引用、请注意风险。这个方式很快，但上线后会出现三个问题。

第一，步骤不可观测。你很难知道 Agent 是检索失败了，还是摘要阶段丢了引用。

第二，错误不可恢复。某个 API 超时后，如果整个 Prompt 重新跑，成本和延迟都会上升。

第三，规则不可治理。机构内部的示例规则、禁用表达、人工复核条件，很难只靠 Prompt 稳定执行。

更合理的方式是把 Agent 任务写成显式 workflow。下面是一个简化版 Python 示例，用来表达“文献检索 Agent”的任务状态、工具调用和审计日志。规则均为工程示例，真实项目应由医疗专业人员和机构规范确认。

fromdataclassesimportdataclass,asdictfromdatetimeimportdatetimefromtypingimportDict,Any,Listimportuuid@dataclassclassAuditEvent:trace_id:strstep:strstatus:strpayload:Dict[str,Any]created_at:strclassAuditLogger:def__init__(self):self.events:List[AuditEvent]=[]defwrite(self,trace_id:str,step:str,status:str,payload:Dict[str,Any]):self.events.append(AuditEvent(trace_id=trace_id,step=step,status=status,payload=payload,created_at=datetime.utcnow().isoformat()))defdump(self):return[asdict(event)foreventinself.events]classLiteratureAgentWorkflow:def__init__(self,audit_logger:AuditLogger):self.audit=audit_loggerdefpolicy_guard(self,trace_id:str,user_query:str):blocked_terms=["诊断结论","用药建议","治疗方案"]ifany(terminuser_queryforterminblocked_terms):self.audit.write(trace_id,"policy_guard","blocked",{"reason":"request_out_of_scope","query":user_query})raiseValueError("当前示例系统仅支持文献辅助处理，不提供诊断、治疗或用药建议")self.audit.write(trace_id,"policy_guard","passed",{"query":user_query})defsearch_literature(self,trace_id:str,user_query:str):result={"query":user_query,"papers":[{"id":"PMID_EXAMPLE_001","title":"Example literature record"},{"id":"PMID_EXAMPLE_002","title":"Another example record"}]}self.audit.write(trace_id,"search_literature","success",result)returnresultdefsummarize_with_llm(self,trace_id:str,search_result:Dict[str,Any]):summary={"summary":"这是基于示例文献记录生成的技术性摘要，不构成医学建议。","citations":[paper["id"]forpaperinsearch_result["papers"]]}self.audit.write(trace_id,"summarize_with_llm","success",summary)returnsummarydefvalidate_result(self,trace_id:str,summary:Dict[str,Any]):ifnotsummary.get("citations"):self.audit.write(trace_id,"validate_result","failed",{"reason":"missing_citations"})raiseValueError("摘要缺少引用来源")self.audit.write(trace_id,"validate_result","passed",{"citation_count":len(summary["citations"])})defrun(self,user_query:str):trace_id=str(uuid.uuid4())self.policy_guard(trace_id,user_query)search_result=self.search_literature(trace_id,user_query)summary=self.summarize_with_llm(trace_id,search_result)self.validate_result(trace_id,summary)return{"trace_id":trace_id,"answer":summary,"audit_log":self.audit.dump()}if__name__=="__main__":logger=AuditLogger()workflow=LiteratureAgentWorkflow(logger)output=workflow.run("请整理某主题相关医学文献的研究背景和引用来源")print(output)