AI Agent 的难点,不在搭 Demo,而在让人敢交任务
Agent难在让人敢托付
很多团队做 Agent 的误会,是把跑通一次当成好用。
现在搭一个 Demo 确实不难。一个大模型,几段提示词,接几个搜索、表格、浏览器或数据库工具,很快就能演示一个会拆任务、会调用工具、会输出结果的流程。看起来像产品,录屏也很顺。
真正麻烦的是,用户不会只给它一次好处理的任务。用户会改需求,会给含糊材料,会中途打断,会要求它记住前文,会让它碰到权限、格式、网络、登录态、脏数据和异常页面。Agent 一旦进入这种环境,难点就从模型聪明不聪明,变成系统能不能稳住。
这张图把 Demo 与生产系统放在一起看,落差通常不是模型调用,而是权限、状态、回滚和评测。
好用 Agent 至少要过几道坎。
任务边界要清楚。它不能把所有话都当成命令,也不能遇到不确定就硬往下做。一个报销 Agent 如果不知道哪些发票能自动归类,哪些必须让人确认,迟早会把效率工具变成风险来源。
工具权限要收住。很多 Agent Demo 喜欢展示它能读邮件、改表格、点网页、发消息。可真正上线时,能做什么不重要,默认不能做什么更重要。权限太大,模型一次误判就可能外发内容、覆盖数据、触发错误交易。
这张清单更像上线前的评审板:可复现、最小权限、失败回滚和人工确认,都比炫技更关键。
状态管理也很难。人做事会记住自己刚刚为什么这样判断,Agent 如果只靠上下文窗口,很容易在长链路里丢掉中间状态。它要知道任务进到哪一步,哪些信息已确认,哪些结果只是草稿,哪些动作已经执行。这里更像传统软件工程,而不是聊天机器人。
再往后是评测。聊天模型可以拿一批问答看准确率,Agent 要看任务完成率、失败原因、异常恢复、人工介入次数、工具调用成本。OpenAI 的 Computer-Using Agent 技术材料里,OSWorld 这类真实桌面任务的成功率仍明显低于人类水平,这恰好说明长链路操作不是写几个提示词就能抹平。
这张故障时间线提醒一个现实:Agent 常常不是输在不会回答,而是输在一步错、后面全错。
对企业来说,Agent 能不能落地,不取决于演示时有多像魔法,而取决于它能不能让业务人员敢把一小块真实工作交出去。这个过程通常会从窄任务开始:客服知识检索、销售线索整理、合同条款初筛、运营报表生成、研发工单分派。任务越窄,边界越清楚,越容易形成可控闭环。
对个人开发者来说,别一上来就做全能助理。更稳的做法是选一个痛点很具体的流程,把输入、工具、输出、异常和确认节点写死一部分,让模型在可控范围内发挥。Agent 的价值不在它显得像人,而在它能替人稳定完成一段烦、重复、容易出错的工作。
所以这件事看似是 AI 产品问题,底层更像工程纪律问题。Demo 证明模型有想象力,生产系统证明团队有边界感。只有后者过关,用户才会把任务真的交给它。
