当前位置：首页 > news >正文

深耕22年AI：拆解生产级Agent完整工程架构，告别缝合怪智能体

news 2026/7/1 0:29:08

文章目录

- 开场：Agent这锅粥，谁都在搅
- Agent不是"大模型+工具调用"的包办婚姻
- RAG：不是把文档扔进向量库就完事了
- - Chunking：切得好不好，决定RAG是神器还是智障
  - Metadata：没有元数据的RAG，就是盲人摸象
  - Reranker：召回之后还得排个座次
  - Query Rewrite：用户的问题，经常不能直接拿去搜
- 状态流转：别让LLM自己决定该干嘛
- Workflow：复杂任务别靠一个Prompt搞定
- Planner/Executor/Verifier：别让一个模型又当爹又当妈
- Tool Schema：工具不是函数名，工具是契约
- 结尾：Agent不是炫技，是工程

P.S. 目前国内还是很缺AI人才的，希望更多人能真正加入到AI行业，共同促进行业进步，增强我国的AI竞争力。想要系统学习AI知识的朋友可以看看我精心打磨的教程 http://blog.csdn.net/jiangjunshow，教程通俗易懂，高中生都能看懂，还有各种段子风趣幽默，从深度学习基础原理到各领域实战应用都有讲解，我22年的AI积累全在里面了。注意，教程仅限真正想入门AI的朋友，否则看看零散的博文就够了。

开场：Agent这锅粥，谁都在搅

说实话，我干了22年AI，最近一年最大的感受就是：全世界都在做Agent，但90%的Agent，本质上就是一个"大模型+if else"的缝合怪。

你打开GitHub，随便搜个Agent项目，README写得跟科幻小说似的：“自主决策、智能规划、多工具协同”。点进去一看，代码里就三个函数：call_llm、search_google、if error then retry。这哪是Agent啊，这是Agent的cosplay。

最离谱的是，有人把ChatGPT套个壳，加两个API调用，就敢叫"企业级智能体中台"。我寻思这不就是给自行车装了个音响，然后宣称自己是特斯拉吗？

所以今天咱不聊虚的，就聊一件事：怎么让AI帮你搭一套真正能在生产环境跑、不会半夜给你发告警、不会被老板骂的Agent架构。记住，我们要的是"能干活"，不是"能发朋友圈"。

💡 **先灵魂拷问10连：**你的Agent有明确状态吗？有workflow吗？工具有schema和权限吗？RAG是hybrid search吗？有rerank吗？memory分层了吗？防prompt injection了吗？有trace日志吗？有eval测试集吗？失败了能恢复吗？
答不上来？没事，答不上来的人占99%，剩下1%在装。

Agent不是"大模型+工具调用"的包办婚姻

很多人理解Agent，就像理解相亲一样：把大模型和工具强行撮合到一块，觉得只要拜了堂，日子就能过。结果呢？大模型说"我要查天气"，工具返回了"今天适合钓鱼"，大模型说"那我要订机票"，工具说"您还没告诉我去哪"。

这场景熟不熟悉？像不像你让实习生去办事，他答应得挺快，回来告诉你"办好了"，但具体怎么办的、中间出了啥岔子、需不需要你确认，一概不知。Agent要是这样，那和请个祖宗回来有什么区别？

真正的Agent，是一套围绕目标、状态、工具、记忆、检索、权限、评估、恢复机制构建的自动化系统。它不只是会调用工具的大模型harness，它是一套规范AI运作的体系。换句话说，大模型是Agent的大脑，但Agent还需要骨架、神经系统和免疫系统。

没有骨架，Agent就是一滩泥；没有免疫系统，Agent见谁信谁，prompt injection一来直接当场去世。你见过哪个靠谱的员工，别人说一句"忽略之前的指令"就真忽略的？那不叫Agent，那叫提线木偶。

RAG：不是把文档扔进向量库就完事了

我见过太多人做RAG，流程是这样的：文档→切片→embedding→向量库→相似度搜索→搞定。然后上线一周，用户问"Android 17的memory.high怎么配置"，Agent返回了一篇《Android内存优化最佳实践》。

用户：？？？我问的是具体配置项，你给我灌鸡汤？

这就是典型的"向量库幻觉"。向量搜索擅长找"语义相似"的东西，比如"内存优化"和"memory management"它觉得是一家人。但你要搜个精确代码符号、错误码、专有名词，向量搜索就跟你玩抽象艺术——看着像，实际上八竿子打不着。

所以生产级RAG必须上Hybrid Search（混合检索）：向量检索负责语义召回，BM25负责关键词、代码符号、错误码召回。两路结果合并、去重、归一化打分，最后再用reranker重排，选出最相关的Top 5-10条给LLM。

🔍给AI的明确指令：
不要只实现向量检索，请实现Hybrid Search。向量检索用于语义召回；BM25用于关键词、代码符号、错误码、专有名词召回；两路结果需要合并、去重、归一化打分；最后用reranker对候选片段重排；返回结果必须带source、chunk_id、score、metadata，方便引用和排查。

Chunking：切得好不好，决定RAG是神器还是智障

很多人觉得RAG效果不好是因为模型不行。拉倒吧，大部分业务场景连模型能力的50%都没用到，问题全出在Chunking上。

什么叫Chunking？就是把文档切成适合检索的小片段。但很多人怎么切的？每500个token一刀切，管你是标题还是代码，刀起刀落，文档碎成渣。结果呢？用户搜"PMGD配置"，第一块讲的是"Android 17引入了PMGD"，第二块讲的是"/vendor/etc/pmgd/config.json配置memory.high"。

两块分开了，上下文断了。Agent看到第一块，知道PMGD是个东西；看到第二块，知道有个配置文件。但它永远不知道"PMGD是通过这个配置文件来配置内存的"。这就像你把《三国演义》按页码撕碎，然后问诸葛亮为什么借东风——上下文都没了，他借个锤子。

正确的做法是父子切块：小块用于搜索命中，大块用于回答时提供完整上下文。Markdown按标题层级切，代码按函数/类切，每个chunk保留parent_id。检索时用小chunk命中，回答时返回parent chunk或相邻chunk。

Metadata：没有元数据的RAG，就是盲人摸象

很多人存文档只存text和embedding，其他啥也不存。这相当于你去图书馆借书，书架上只有内容，没有书名、作者、分类、出版日期。你想找2026年的技术文档？全库慢慢翻吧，祝你好运。

Metadata就是每个文档片段的身份证：source、type、created_at、section、tags、language、project。有了这些，用户说"只搜我自己的笔记"，你能过滤；用户说"不要搜废弃文档"，你能排除。没有metadata，Agent就是全库乱搜，搜出来一堆陈年旧账，还得自己翻。

Reranker：召回之后还得排个座次

向量搜索和BM25负责"尽量找多一点相关内容"，但这些内容不一定排得准。就像你去菜市场买菜，摊主给你抓了一把，里面有好的有坏的，你得挑一挑。

Reranker就是那个帮你挑的。用户问"Flutter iOS SPM迁移publicHeadersPath怎么配置"，向量库可能召回"Flutter iOS构建"“Swift Package Manager”“iOS public header”。但最相关的是包含"publicHeadersPath"“Package.swift”“target”"headers"的那一段。Reranker能把它排到最前面，而不是让LLM在垃圾堆里找金子。

Query Rewrite：用户的问题，经常不能直接拿去搜

用户问"这个功能为啥跑不起来"，你要是直接拿这句话去检索，Agent基本废了。这就好比你去药店说"我不舒服"，店员知道你是头疼还是脚疼？

Agent需要把问题改写成多个检索query：原始自然语言query、关键词query、英文技术术语query、代码/API/配置名query、同义表达query。用户问"Android 17那个后台内存限制到底有没有豁免"，改写成"Android 17 background memory limit exemption"“Android 17 PMGD memory.high allowlist”“Android 17 cgroup memory events vendor process”。多路查询，合并结果，才能覆盖全面。

状态流转：别让LLM自己决定该干嘛

我见过最离谱的Agent设计，是让LLM自己决定"现在该干嘛"。用户说"写篇文章"，LLM一会儿查资料，一会儿写正文，一会儿改标题，写到一半觉得提纲不好，回去重写提纲，然后陷入死循环。

这像什么？像不像你让一个没做过饭的人进厨房，他拿起锅铲又放下，打开冰箱又关上，最后问你"盐在哪"。LLM不是项目经理，它是执行者。流程得你来定，它负责按步骤执行。

所以Agent必须上有限状态机（FSM）：IDLE→COLLECT_REQUIREMENTS→RESEARCH→OUTLINE→DRAFT→REVIEW→REVISE→FINAL。每个状态有明确输入输出，允许进入哪些下一个状态，什么条件触发转移，非法状态怎么处理。LLM只负责当前状态的任务，不是整盘棋都由它下。

📋状态机示例：
IDLE等待输入→COLLECT_REQUIREMENTS提取需求→RESEARCH搜索资料→OUTLINE生成提纲→DRAFT写初稿→REVIEW自检→REVISE修改→FINAL输出。每个状态有明确输入、输出、转移条件、非法转移处理、是否人工确认、状态持久化字段。

Workflow：复杂任务别靠一个Prompt搞定

有人写Agent，就写一个巨长的prompt，把"研究GitHub项目"的所有要求塞进去。LLM看了直接懵圈，输出质量跟开盲盒似的。这相当于你给员工发一封5000字的邮件，说"把这个项目分析一下"，然后期待他给你一份完美的报告。

靠谱的做法是拆成Workflow：读取README→识别项目目标→读取package配置→分析目录结构→找核心入口→检查最近commit→检查issue/PR→输出结论。每一步有明确输入、输出、失败处理、是否可重试，每一步的产物保存下来，方便断点续跑和回放。

Workflow比大prompt稳定得多，因为LLM一次只干一件事，干完检查，检查完下一步。这就像工厂流水线，每个工位只拧一个螺丝，比让一个师傅从头造一辆车靠谱多了。

Planner/Executor/Verifier：别让一个模型又当爹又当妈

很多Agent框架犯的一个错误，是让同一个模型既做规划又做执行又做验证。这就像让一个人同时当导演、演员和影评人，他拍出来的片子能客观吗？

正确的做法是职责分离：Planner负责拆任务、定计划；Executor负责执行单个步骤；Verifier负责检查结果。用户说"帮我分析librepods是否能让Android完整支持AirPods"，Planner输出6步计划，Executor只执行当前步骤"读取README并提取功能列表"，Verifier检查"有没有把项目宣传当成事实？有没有引用代码证据？有没有遗漏限制？"

当然，不一定是三个独立模型，可以是同一个模型在不同step用不同prompt、不同权限和不同输出contract。核心是把职责边界划清楚，别让LLM又当运动员又当裁判员。

Tool Schema：工具不是函数名，工具是契约

我见过最草率的工具设计，就一个search(query)。这相当于你去餐厅，菜单上就写个"吃的(东西)"，你点吧，点到啥算啥。

生产级工具必须有schema：工具做什么、不做什么、输入参数、输出格式、错误格式、权限等级、是否可重试、是否有副作用、是否需要用户确认。高风险工具必须进human approval，不能让模型直接执行。不然哪天Agent觉得"删除生产数据库"是解决问题的最佳方案，你就真成最佳实践了——最佳离职实践。

🛠️工具Schema示例：
name: search_documents | description: Search indexed documents using hybrid retrieval | input: query(string), filters(project, doc_type, date_range), top_k(number) | output: chunks[{text, source, score, metadata}] | 错误码、权限等级、副作用说明、是否可重试、是否需用户确认——一个都不能少。