当前位置：首页 > news >正文

Agent 核心原理：工程实践里的常见坑

news 2026/6/29 20:09:09

这篇我按“先跑起来、再讲取舍”的方式写《Agent 核心原理：工程实践里的常见坑》。概念会讲，但重点放在代码怎么组织、哪里容易踩坑。

摘要

本文概述文章目标、核心观点和实践价值。

做 Agent 开发这段时间，我最大的感受是：Demo 和 Production 之间隔着一条巨大的鸿沟。

很多面试官或者技术负责人问：“你们做的 Agent 到底解决了什么问题？”如果你只会回答“集成了 LLM 和向量数据库”，那大概率会被追问到怀疑人生。因为在实际工程里，LLM 只是个大脑，它需要手（工具）、记忆（历史）和逻辑（规划）才能干活。

今天不聊虚的概念，直接复盘我在构建一个“自动化数据报表生成 Agent”时踩过的坑，以及我是如何通过重构工具调用、记忆管理和任务规划模块，把这个东西从“一次性玩具”变成“能用的生产力工具”的。顺便聊聊，在面试中怎么把这段经历讲得让听者信服。

Agent 的本质：不是聊天机器人，而是执行器

首先得纠正一个认知偏差。传统的 Chatbot 是“问答系统”，用户问什么答什么；而 Agent 的核心是行动。它的本质是一个Loop：观察环境 -> 思考决策 -> 执行动作 -> 反馈结果。

在我的项目中，最初我犯的最大错误就是试图让 LLM 同时处理“理解用户需求”和“调用 API”。结果就是幻觉频发，比如用户让它查“上周销售额”，它可能去查了“最近一周”或者干脆编造数据。

拆解原则：
1.Prompt 隔离：把 System Prompt 拆分为“意图识别”和“动作执行”。
2.确定性优先：LLM 负责模糊匹配，代码负责精确执行。

规划能力：别让 LLM 当单线程处理器

早期的 Agent 都是线性的：用户输入 -> LLM 思考 -> 调用工具 -> 返回结果。这种模式在简单查询下没问题，一旦涉及多步任务（比如“对比两个产品的参数并生成 Excel”），LLM 就容易迷失。

常见坑点：过度依赖思维链（CoT）的长度

很多开发者认为，只要在 Prompt 里让 LLM “一步步思考”，效果就会好。实际上，过长的 CoT 不仅增加 Token 消耗，还容易引入逻辑漂移。

我的解决方案：采用结构化规划而非自由文本规划。

我们不直接让 LLM 输出自然语言步骤，而是让它输出 JSON 格式的任务树。例如：

{ "task": "generate_report", "subtasks": [ {"id": 1, "action": "fetch_data", "params": {"start_date": "2023-10-01", "end_date": "2023-10-07"}}, {"id": 2, "action": "calculate_metrics", "depends_on": [1]}, {"id": 3, "action": "export_excel", "depends_on": [2]} ] }

这样做的优势在于：
1.可中断与恢复：如果步骤 2 报错，我们可以只重试步骤 2，而不必从头开始。
2.并行处理：没有依赖关系的子任务可以并发执行。
3.面试亮点：你可以明确告诉面试官，“我通过结构化数据解耦了 LLM 的非确定性输出和执行器的确定性逻辑”。

工具调用：精度比广度更重要

工具调用（Function Calling）是 Agent 的“手”。这里有两个极端：一个是工具太少，Agent 啥也干不了；另一个是工具太多，LLM 产生“选择困难症”。

踩坑实录：参数校验的缺失

在一次调试中，我发现 LLM 经常传入错误的日期格式（如 "2023/10/1" 而不是 "2023-10-01"），导致后端 API 直接 500 报错。起初我以为是 Prompt 写得不够细，后来发现，永远不要信任 LLM 的参数格式。

最佳实践：
1.严格 Schema 定义：使用 Pydantic 或 JSON Schema 强制约束输入类型。
2.中间层校验：在 LLM 输出和实际函数执行之间加一层 Validation 层。
3.错误反馈闭环：如果调用失败，将错误信息（Error Message）重新喂回给 LLM，让它自我修正。

from pydantic import BaseModel, Field from typing import List class SearchParams(BaseModel): query: str = Field(..., description="搜索关键词") limit: int = Field(default=5, ge=1, le=20, description="结果数量限制，最大20") def search_tool(query: str, limit: int) -> List[dict]: # 实际调用逻辑 pass

在简历里，强调你设计了“基于 Schema 的参数校验与自动修正机制”，这比单纯说“用了 Function Calling”要有深度得多。

记忆系统：上下文窗口不是无限的黑盒

很多人觉得把聊天记录塞进 Context Window 就够了。但在实际生产环境中，这会导致两个问题：
1.成本爆炸：随着对话变长，Token 费用指数级增长。
2.噪音干扰：无关的历史对话会稀释当前任务的注意力。

分层记忆架构

我采用的策略是将记忆分为三层：

1.短期记忆（Short-term）：即当前的 Conversation History。保留最近的 N 轮对话，用于保持连贯性。
2.长期记忆（Long-term）：使用向量数据库存储关键事实、用户偏好和项目背景。每次请求前，根据当前 Query 进行 RAG 检索，只注入相关的片段。
3.工作记忆（Working Memory）：这是最容易被忽略的一层。它是 Agent 在执行复杂任务过程中产生的临时状态（如刚才计算出的中间变量、待办列表）。这部分通常放在内存或 Redis 中，任务结束后丢弃。

面试技巧：当被问到“如何处理长上下文”时，不要只谈压缩技术。要谈谈“动态 relevance scoring”——如何判断哪些历史信息对当前决策是至关重要的。

失败恢复：Agent 的灵魂在于韧性

一个健壮的 Agent 必须具备“从失败中学习”的能力。如果工具调用失败了，Agent 不应该直接崩溃或给出一个错误答案，而应该尝试反思（Reflection）和重试（Retry）。

实现思路：ReAct 模式的变体

我们引入了一个简单的重试计数器和一个错误分类器。

如果是参数错误（如日期格式不对），Agent 自动修正参数并重试。
如果是网络超时，Agent 等待后重试。
如果是业务逻辑错误（如数据不存在），Agent 向用户澄清或提供备选方案。

def execute_with_recovery(agent_state, tool_name, params, max_retries=3): for attempt in range(max_retries): try: result = call_tool(tool_name, params) return result except ToolExecutionError as e: agent_state.add_history(f"Attempt {attempt+1} failed: {e.message}") # 让 LLM 分析错误原因并调整参数 params = llm_adjust_params(params, e.message) raise FinalFailureError("Max retries exceeded")

总结：如何把项目讲清楚

回顾整个开发过程，Agent 的核心难点不在于调用 API，而在于控制流的确定性。

在面试或技术分享中，建议你按照以下逻辑讲述你的项目：
1.痛点：传统自动化脚本无法处理非结构化需求，人工操作效率低。
2.架构：简述“规划-工具-记忆”三层架构，强调为什么这么设计（为了解耦和稳定性）。
3.难点突破：重点讲工具调用的参数校验和失败恢复机制，这是体现工程能力的关键。
4.效果验证：用数据说话，比如“将报表生成时间从 2 小时缩短到 5 分钟，准确率提升至 95%”。

Agent 技术迭代很快，但底层的工程逻辑——鲁棒性、可观测性、模块化——是不变的。把这些内核讲出来，比罗列用了多少新颖的框架更有说服力。