Agent 不止于 Chat:垂直 AI 时代的协作界面重构
文章目录
- 引言:那个让人崩溃的三十分钟
- 一、垂直 AI 的真问题:端到端完成复杂工作
- 1.1 从「增强人」到「替代某段流程」
- 1.2 端到端的难点不在「做」,而在「规划与审阅」
- 二、Verifier's Rule:可验证性才是真正的分水岭
- 2.1 什么是 Verifier's Rule
- 2.2 同一个领域内,任务也是「一字铺开」
- 2.3 别试图「硬刚」不可验证任务
- 三、协作的两个坐标轴:信任与控制
- 3.1 Trust:我多大程度上不用看你的过程
- 3.2 Control:我多大程度上可以把判断喂进去
- 3.3 不同任务落在不同象限
- 四、如何系统性地提升 Trust
- 4.1 把任务往「可验证」的一端拖
- 4.2 任务分解:把整块工作拆成可验证的小块
- 4.3 Guardrails:通过限制动作空间换取信任
- 五、如何系统性地提升 Control
- 5.1 朴素方案:只在根节点说话
- 5.2 Planning:开头先对齐一次
- 5.3 Skills:把判断编码进每一个节点
- 5.4 Elicitation:让 Agent 主动来找你
- 六、为什么 Chat 撑不起复杂 Agent
- 七、协作界面的未来:高带宽工件
- 7.1 Document:天然适合人与 Agent 共同生长
- 7.2 Tabular Review:让审阅变成「扫表」
- 7.3 把它泛化到所有行业
- 7.4 UI 正在悄悄收敛
- 八、给工程师的实践清单
- 8.1 在「任务一字铺开」上花一天
- 8.2 给关键任务画工作树
- 8.3 一次性投资 Skills,而不是迭代 Prompt
- 8.4 给 Agent 装 Decision Log
- 8.5 用 Guardrails 换取「敢让它跑久」
- 8.6 把 Chat 退回到「输入端」
- 8.7 把语音、白板、图形当作 Agent 的真正接口
- 九、写在最后:不要把 Agent 困在人类语言里
基于 Legora CTO Jacob Lauritzen 在 AI Engineer 大会演讲《Agents need more than a chat》的延伸思考。
引言:那个让人崩溃的三十分钟
如果你真正用过一个能跑几十分钟、能调子智能体、能写文件、能反复检索的「复杂 Agent」,那你大概率经历过这样一段时间。
你给它布置了一个任务:研究一下某家公司,按模板起草一份合同,别犯错。它点点头开始干活——先思考几秒,接着读资料、起 sub-agent、做 web search、写中间文件、再起几个 sub-agent、再读、再写。半小时过去,它把一份看上去煞有介事的合同丢回你面前。
你扫了一眼 Clause 3:不对,逻辑反了,对方的违约责任怎么落到我们头上了?你回它一句:「这里写错了,麻烦改一下,顺便参考一下我之前那份合同。」
它回你一句:「You’re absolutely right.」
然后你看到屏幕上闪出那个最让人心碎的词——compaction。上下文要被压缩了。这一刻你就知道:之前那二十多分钟的中间状态、所有它「想明白」的细节、所有它读过的文档摘要,都会被一团模糊的总结替代。它要进入「context rot」状态了。
它继续装模作样地工作。又过了几分钟,新版本合同出来。你想确认一下:是不是只动了 Clause 3?大概率不是。它顺手把别的地方也改了,可能引入了三处新错误。
这就是当下大量长程 Agent 的真实体验:交付物像盲盒,过程像黑箱,迭代成本高得离谱,最后你宁愿自己写。
问题到底出在哪?是模型不够强吗?是 prompt 不够好吗?是 context window 不够大吗?
这些都不是根因。真正的根因是:我们仍然在用 Chat 这种一维、低带宽的界面去驱动一棵高度并行的工作树,让人类的判断只能在「根节点」发力,让 Agent 在大部分关键决策上都在自说自话。
本文围绕 Legora CTO Jacob Lauritzen 在 AI Engineer 大会上分享的一套观点展开,结合垂直 AI 场景里这一年的真实变化,系统讨论几个问题:
- 在「规划 — 执行 — 审阅」这条新的生产流水线上,瓶颈到底转移到了哪里。
- 为什么 Verifier’s Rule 是决定一个任务能否被 AI 接管的关键。
- 如何用「信任 / 控制」这两个坐标,去重新审视你和 Agent 的协作方式。
- 为什么 Skills 比 Planning 重要,为什么 Elicitation 是必经之路。
- 为什么下一代 Agent 的主战场不在聊天窗,而在 Document、Tabular Review 这类高带宽工件上。
如果你正在做 vertical AI、AI Coding、Agentic Engineering,或者只是想搞清楚为什么 Claude Code、Cursor、Devin 这一波产品的 UX 都在悄悄长得越来越像,这篇文章会比较合你口味。
一、垂直 AI 的真问题:端到端完成复杂工作
1.1 从「增强人」到「替代某段流程」
AI 应用的演进,可以粗略画成三个阶段:
- 增强单点动作:补全、摘要、翻译、改写。AI 只是工具栏里多出来的一个按钮。
- 增强单个角色:Copilot、写作助手、客服助手。AI 站在某个具体职业的肩膀上做加法。
- 端到端接管一段流程:研究 + 起草 + 校对 + 形成可交付物。AI 不再只是按钮,而是承担一段「工序」。
垂直 AI 公司——无论是 Legora 这样的 legal tech,还是金融、医疗、运维、研发领域的同类玩家——本质上都在押注第三个阶段:让 Agent 端到端完成越来越复杂的真实工作。
1.2 端到端的难点不在「做」,而在「规划与审阅」
过去几年,大家最大的焦虑是:模型能不能写出可用代码?能不能写出像样的合同?能不能给出合格的分析?
今天,这件事已经不再是核心瓶颈。Sonnet / GPT-5 / Gemini 这种水平的模型,在大多数标准化任务上已经可以做得不错。真正吃时间、吃心智成本的,是另外两件事:
- 任务上游:把模糊需求拆成可执行的工序、写清楚非功能性需求、给出规范和约束。
- 任务下游:审阅这一堆产出。看一个 800 行的 PR、看一份 30 页的合同、看十几个 sub-agent 写下的研究笔记——你愿意花多少时间认真读?
生产工作的「经济结构」正在反转:做事变得越来越便宜,规划和审阅变得越来越贵。
这一点对设计 Agent 产品意味着:
- 你优化的不再只是「让 Agent 跑得更快、做得更多」。
- 你必须同时优化:人怎么把意图喂进去、人怎么把结果看出来。
- 否则你只是在更高的速度上批量制造垃圾。
二、Verifier’s Rule:可验证性才是真正的分水岭
2.1 什么是 Verifier’s Rule
这条经验法则可以这样表述:
一个任务,如果它本身是可解的,并且它的结果易于验证,那么 AI 迟早会把它做好。
看似平平无奇,但只要往里面多走一步,就能看见非常重要的一刀切:「好不好做」 和 「好不好验证」 是两个相互独立的维度。
- 一个任务可能很难做、但极易验证——例如 SAT 求解、数学竞赛题。
- 一个任务可能很容易做、但极难验证——例如写一段「好」合同、写一篇「好」创意文案。
而 RL、post-training、Agent loop 这些手段的共同前提,恰恰是:得有人或有规则能告诉它「你这次干对了没」。没有 verifier,没有训练信号;没有训练信号,靠运气堆 prompt 是堆不出可靠 Agent 的。
2.2 同一个领域内,任务也是「一字铺开」
不能笼统地说「legal 难」或「coding 容易」。同一个行业里,不同任务在「可验证性」维度上拉得非常开。以法律为例:
| 任务类型 | 易解性 | 易验证性 | 当下 AI 的相对位置 |
|---|---|---|---|
| 合同中定义检查(每个被使用的术语是否都定义过、是否有死定义) | 高 | 高 | 可完全交给 Agent |
| 合同条款格式统一、引用编号一致 | 高 | 高 | 可完全交给 Agent |
| 起草一份新合同条款 | 高 | 低(要打官司才知道扛不扛得住) | 需要人深度参与 |
| 诉讼策略(litigation strategy) | 低 | 极低(五个律师五个答案) | AI 只能做信息整理,不做决策 |
类似的拆解可以套到几乎所有行业上。
- 金融:财报数据抓取、勾稽校验 —— 极易验证;投资判断 —— 不可验证。
- 运维:日志匹配规则、巡检脚本运行结果 —— 极易验证;架构演进方向 —— 不可验证。
- 代码:单元测试可覆盖的 bug 修复 —— 易验证;「做一个成功的 C 端产品」 —— 几乎不可验证。
做垂直 AI 产品的第一件事,应该是把目标行业里所有典型任务,按「易解 / 易验证」这张二维图铺一遍,看清楚哪些任务今天就能压榨干净,哪些任务再等三年也别指望端到端自动化。
2.3 别试图「硬刚」不可验证任务
面对不可验证的任务,常见的两个错误姿势:
- 加更多模型、加更多 RAG、加更多 tool:你只是在不可验证的空间里更快地生产更难复核的结果。
- 让 Agent 自我评审:让另一个同样不可验证空间里的 Agent 给前一个打分。结果是两层不可验证叠加,幻觉只会更精致。
正确姿势是下一章的核心:改造任务的形态,把它从「不可验证」一步步搬到「可验证」那一侧。
三、协作的两个坐标轴:信任与控制
要让 Agent 真正胜任复杂工作,必须同时回答两个问题:
- 我有多相信它独立完成?(Trust)
- 我有多容易把我的判断注入它的工作?(Control)
这两个维度是正交的,缺一不可。
3.1 Trust:我多大程度上不用看你的过程
Trust 决定了审阅成本。
- Trust 低:你必须看每一条 trace、每一次 tool call、每一份中间产物。Agent 跑得再快,你也得花成倍的时间复核。
- Trust 高:你只看最终交付物,甚至直接采用。
现实里,Trust 不是「感觉」,而是被任务的可验证性、Agent 的工具范围、历史成功率共同决定的。可验证性越强、动作空间越收敛、过往证据越多,Trust 越高。
3.2 Control:我多大程度上可以把判断喂进去
Control 决定了结果的方向感。
- Control 低:你只能在最开始下达一个目标,中间它干什么你不知道,你也插不上嘴。
- Control 高:你可以在任何关键节点表达偏好、否决方案、追加约束。
Chat-only 的 Agent 几乎注定低 Control —— 因为你只能在「开头」和「末尾」两个点切入对话,对中间无数关键的小决策无能为力。
3.3 不同任务落在不同象限
把 Trust 当作 Y 轴、把 Control 当作 X 轴,所有任务都可以找到自己的位置:
- 高信任 + 低控制需求:例如格式化、定义检查、批量翻译。让它跑就好。
- 高信任 + 高控制需求:例如多轮的研究 / 起草任务。Agent 能干活,但你需要在关键节点持续注入判断。
- 低信任 + 任意控制需求:例如战略性决策、敏感外发内容。这里不该由 Agent 主导,最多让它做 research 助手。
做产品时最容易踩的坑是:把第二象限的任务,用第一象限的 UX 去做。一个需要持续控制的任务,被塞进一个只允许「扔过去 → 等结果」的聊天框,体验崩溃几乎是必然的。
四、如何系统性地提升 Trust
Trust 不是「多用一阵子就有了」,它是可以被工程化提升的。有三种相互配合的手段。
4.1 把任务往「可验证」的一端拖
这是 verifier’s rule 在工程上的直接推论。任务本身不可验证不要紧,可以通过改造任务边界来让它变得可验证。
几个例子:
- 代码任务:给 Agent 浏览器访问权限 + 强制 TDD。本来「写一个能跑通的功能」是软指标,加上「跑通这套测试用例 + UI 操作脚本通过」之后,立刻变成硬指标。
- 合同起草:原任务「写一份好的并购协议」不可验证。换一种思路:让 Agent 输出新合同后,与历史上经过法庭、经过谈判验证过的golden contracts做相似度比对,作为验证代理(proxy verifier)。语义上不一定 100% 对,但是工程上立刻有了反馈信号。
- 数据分析:让模型自己解释结论很难验证,但让它生成可执行的 SQL/Python 代码片段,再用确定性方式比对预期数据形状、行数、汇总值,可以把「分析对不对」近似为「代码跑得过不过」。
这一类技巧的核心叫做proxy verification:找不到完美的真理,那就找一个相关性足够高、可机器判定的代理指标。
4.2 任务分解:把整块工作拆成可验证的小块
「写一份合同」当作一个整体不好验证,但它可以拆成一棵子任务树:
- 选风险偏好(Risk profile)——人决策。
- 选模板/先例文档(Precedent documents)——人决策。
- 选谈判立场(Negotiation stance)——人决策。
- 拉骨架(Skeleton)——Agent,可验证:结构匹配模板。
- 填充条款 ——Agent,部分可验证:定义一致性、引用编号、术语表。
- 排版与格式 ——Agent,可验证:与公司既有合同视觉一致。
- 定义检查(Linting)——Agent,可验证:每个定义都被用过、每个被用术语都被定义。
分解之后你会发现:
- 真正需要人类判断的,只剩下少数几个「非功能性」的节点。
- 大量易验证的节点可以放心交给 Agent,它在 loop 里反复改、反复跑 verifier,最终趋向稳定。
这是垂直 AI 工程师真正该花时间的地方:不是发明更聪明的 prompt,而是发明更精细的任务结构。
4.3 Guardrails:通过限制动作空间换取信任
Guardrails 是另一条提升信任的途径——通过收缩 Agent 的能力边界,让「最坏情况」变得可承受。
常见做法:
- 只允许编辑指定的几个文件、指定的目录。
- 只允许访问白名单内的网站。
- 危险动作(删数据库、付钱、发邮件)必须二次确认。
- 一段时间 / 一定 token 内的最大调用次数硬封顶。
Claude Code 是一个非常直观的样本:
- 在低信任模式下,每个 shell 命令都要问一遍「要不要执行?」——理论上最安全,实际上工作流被打断到几乎不可用。
- 在 「YOLO 模式」 下,它什么都敢干——但凡你忘了挂分支、忘了 docker 化、忘了快照,它确实可能把你的 prod 数据库一并送走。
现实里的优雅解法不是二选一,而是按任务危险等级 × 工作目录可逆性配置不同程度的 guardrails。例如:
- 在沙箱 git worktree 里完全放手。
- 在主仓库只允许读、不允许直接 push。
- 任何会触及外网 / 数据库 / 支付 / 用户通知的动作,强制人审。
Guardrails 不会让 Agent 更聪明,但是会让你敢于让它跑久一点。这一点比聪明更重要。
五、如何系统性地提升 Control
Control 是这套理论里最容易被低估、也最容易被错误实现的一环。
复杂 Agent 工作可以画成一个有向无环图(DAG)——或者更简单地,一棵工作树。例如「为一组员工合同写一份合规报告」这个任务大致是这样的:
撰写报告 ├─ 研究组织背景 │ ├─ 检索公司公开信息 │ └─ 检索过往内部文档 ├─ 审阅每一份合同 │ ├─ 检查 IP 条款 │ ├─ 检查保密条款 │ ├─ 检查竞业条款 │ └─ 检查终止条款 ├─ 汇总风险点 └─ 出具最终报告问题在于:人类的判断在哪些节点能介入?
根据介入位置不同,Control 等级也完全不同。
5.1 朴素方案:只在根节点说话
你扔出一句「给我写份报告」,半小时后看到结果。中间所有分支它都自己决定。
- 你说「看 IP 条款」,它可能去看保密条款。
- 你说「重点关注美国法」,它可能下沉到欧盟法。
- 你说「别太长」,它可能交给你 30 页。
这种模式下,控制基本为零。开篇那个让人崩溃的三十分钟,就是这个模式。
5.2 Planning:开头先对齐一次
Planning 模式是当下市面上最常见的「Control 增强」:
- Agent 拿到目标后,先输出一份计划:第一步做什么、第二步做什么、用什么工具、产出什么。
- 你看一眼,提一些修改,然后说「开干」。
- 它按计划走完整棵树。
相比朴素方案,Planning 把一次「根节点对齐」做得更扎实,确实有用。Claude Code 的/plan、Cursor 的某些模式、各种 deep research 类产品,本质上都在用这个思路。
但是 Planning 有几个非常硬的天花板:
- 要做 plan,本身就得先把任务想明白一半。你不做点 research,根本写不出靠谱的计划。
- Plan 的颗粒度永远小于真实工作的颗粒度。某份合同里突然出现的「特殊条款 X」,你在 plan 阶段根本无从知晓。
- Plan 是静态的。一旦开始执行,遇到出乎意料的情况,它要么强行套 plan、要么悄悄改 plan,你都不知道。
- Plan 阶段往往要回答一堆你也答不上的问题。Agent 没真正干活,你也没真正干活,两个人盯着一张 outline 互相试探。
打个比方:Planning 模式像一个同事进你办公室、说一遍他打算怎么做、你点点头,然后他消失三十分钟,回来塞给你一份完成品。中间没有任何机会调整方向。这不是一种健康的协作方式。
Planning 不会消失,但它绝不应该是 Agent 协作的主轴。
5.3 Skills:把判断编码进每一个节点
Skills 是当前最被低估的一种 Control 机制,也是 Claude Code、Cursor、各类企业 Agent 平台正在快速收敛的方向。
一个 Skill 本质上是一份针对某种节点的写死方案:当 Agent 在工作树中遇到「审阅终止条款」这种节点时,它不再凭感觉,而是按预先准备好的 skill 执行。一个典型的 skill 可能包含:
- 触发条件:在做合同审阅、且当前条款类型是 termination。
- 行动步骤:先抽取双方权利义务、再比对 golden clause、再生成风险评级。
- 异常分支:如果合同适用法是 EU 成员国法,额外执行 GDPR 终止合规检查。
- 输出 schema:固定字段、固定 markdown 格式、固定 risk level 枚举。
Skills 模式相对 Planning 有三个本质性的优势:
- 判断粒度从「整体任务」 下降到了 「节点」。你不必在开始时穷举所有情况,而是把多年沉淀的「某类情况怎么处理」一次性写好,未来所有任务自动复用。
- 支持 contingency。Planning 阶段不知道有没有 EU 合同;Skills 阶段,碰到再触发就行。
- 支持渐进披露(progressive discovery)。Agent 在执行过程中才发现的细节,可以匹配上对应的 skill,绝不丢。
如果说 Planning 是一次性 alignment,Skills 就是长期可复用的组织记忆。垂直 AI 公司的护城河,本质上就是「多少业务知识沉淀进了 skills」——这是单纯换基础模型换不掉的资产。
5.4 Elicitation:让 Agent 主动来找你
Skills 再丰富,也会有空白地带。真实复杂任务里,永远会遇到「没人写过 skill」、「几个 skill 之间冲突」、「信息不充分」的情况。
这时候,更合理的姿势是Elicitation——Agent 主动停下来问人。
但 Elicitation 不是「随时弹窗骚扰你」这么粗暴。一个工程上比较成熟的实现包括:
- 能继续就继续,不要无谓阻塞。Agent 遇到不确定时,先按一个合理的默认值继续往下推进。
- 写决策日志(Decision Log)。所有由 Agent 自行做出的、本应该由人决策的选择,都写入一份结构化日志:时间、节点、可选方案、采用方案、理由。
- 批量异步审阅。人在合适的时间点回到决策日志,要么 approve、要么 reverse。反转决策时,Agent 自动重跑相关分支。
- 真正必须停下来的情况,才向人发出 question:例如安全、合规、付费、用户外发、不可逆动作。
这套模式带来的体验是:
- 工作不停。人不需要 7x24 守着 Agent。
- 控制不丢。人随时可以倒回去看决策、改决策。
- 重要的事,仍然由人拍板。
这才是「高带宽 + 高 Control」 的真正含义:人不是去陪 Agent 一句一句聊,而是去检阅一份结构化的决策清单。
六、为什么 Chat 撑不起复杂 Agent
现在可以回到开篇那个三十分钟的失败案例。它的根本问题,其实可以一句话概括:用一维通道驱动一棵高度并行的工作树。
Chat 作为协作界面有几个无法克服的硬伤:
- 线性:消息一条一条往下排,你看见的永远是「最近一句」。一棵工作树根本没法塞进这种结构。
- 低带宽:你只能用一段文字描述意图、用一段文字接收结果,所有结构信息都被压成 token 序列。
- 上下文易腐烂:长对话必然触发 compaction / summarization,中间状态被压缩,细节被丢弃。
- 审阅成本极高:让你在一段 30 屏长的对话里找出哪里改对了、哪里改错了,几乎不可能。
- 无法精准定位:你很难指着对话里的某一段说「只改这里、别动其他」。
更糟的是,Chat 给人一种错觉:好像所有事情都能在一个聊天框里搞定。这种错觉让 Agent 产品在早期看起来很惊艳,到了真实复杂任务里就原形毕露。
要厘清的一点是:Chat 作为输入手段非常优秀。
- 自然语言是最通用的指令接口。
- 表达模糊意图、追加约束、随时换方向都很灵活。
- 它适合「启动一个任务」、「追加一条要求」。
Chat 真正不适合的是做主协作界面。它适合发指令,不适合一起干活。一旦工作进入「需要持续高 Control + 持续审阅」的状态,必须切换到别的界面。
七、协作界面的未来:高带宽工件
那「别的界面」是什么?
它的统一抽象是:高带宽工件(high-bandwidth artifacts)。
一个合格的协作工件具备以下几个特征:
- 持久化:不是消息流,而是一个长期存在的实体,可以被多次回到、反复修改。
- 结构化:内部有清晰的层级、区域、字段,可以精确定位「这里」。
- 多人/多 Agent 可标注:可以打高亮、加评论、@ 协作者或 sub-agent。
- 可与具体任务原语对应:例如「一份文档」、「一张表」、「一棵审阅树」、「一组测试结果」。
不同行业的工件长得完全不一样,但抽象是一致的。Legora 给出了两个非常具体的例子。
7.1 Document:天然适合人与 Agent 共同生长
文档是法律、咨询、研究、内容行业里最自然的协作单位。
它在 Agent 协作场景下有几个非常好的性质:
- 天生支持精确定位:你可以选中第 3 条 clause,告诉 Agent「只改这里」,而不必让它扫整篇。
- 天生支持评论与讨论:你可以在某段旁边加一条评论、@ 一个专门做 IP 审查的 sub-agent。
- 天生支持分段交接:可以把不同段落交给不同的 Agent 处理,像把章节分给不同的同事。
- 天生有版本与 diff:每一次修改都可视化,谁动了什么一目了然。
对比 Chat:你想在聊天框里完成上面任何一件事,都会变得极其别扭。
7.2 Tabular Review:让审阅变成「扫表」
第二个被 Legora 推上前台的工件,是表格化审阅(Tabular Review)。
场景大致是这样:你需要审一批合同,关注若干维度——比如终止条款、保密条款、IP 归属、争议解决方式。传统做法是 Agent 写一份冗长报告,把所有合同都罗列一遍。表格化审阅则把这件事变成:
- 每一行:一份合同。
- 每一列:一个审阅维度。
- 每个单元格:Agent 的判断 + 引用 + 风险标签。
- 关键标记:Agent 主动 flag 出它「不确定」或「认为风险高」的格子。
这个界面下的体验完全不同:
- 你扫一眼标红的格子,就知道注意力该花在哪。
- 点开任意一格,能看到原文引用与 Agent 的推理路径。
- 在某一格改判定,Agent 自动重新生成下游汇总和报告。
- 高频复用:把同样的列定义复用到下一批合同,整个审阅流程瞬时复刻。
本质上这是把审阅这件事的形态,从「读长文档」改成「扫一张结构化表」。审阅成本被一次性砍掉一个量级。
7.3 把它泛化到所有行业
这个抽象不是法律专属。换一个行业,工件就换一种长相:
- 代码工程:Document = 源码文件、ADR、设计文档;Tabular Review = PR 列表、测试矩阵、依赖升级表。
- 运维:Document = SOP、值班交接、事故复盘;Tabular Review = 工单分类表、巡检结果矩阵、资产清单。
- 金融分析:Document = 研报、备忘录;Tabular Review = 公司对比表、估值表、风险因子表。
- 销售/CRM:Document = 客户档案、提案;Tabular Review = pipeline 表、客户健康度矩阵。
做垂直 AI 产品的一个核心动作,就是回答这两个问题:
- 我所在的行业,最自然的「工件」是什么?
- 怎样让 Agent 在这种工件上和人一起工作,而不是在聊天框里一来一回?
谁先答好这两个问题,谁就先把 Agent 从「玩具」变成「同事」。
7.4 UI 正在悄悄收敛
如果你最近半年密切关注 AI 工具,会发现一种悄悄的收敛:
- 聊天框还在,但是被推到侧边或底部。
- 主舞台变成了文档、画布、表格、看板、IDE、流程图。
- 任何一个长任务,最终都会以一个或多个可持久化的工件作为承载。
- 进度、变更、决策被结构化展示,不再是一长串气泡。
这不是某个团队的设计偏好,而是一个被任务本身倒逼出来的结构。一旦你认真做端到端复杂工作,Chat-only 就是死路一条。
八、给工程师的实践清单
把前面这些观点压成一份可执行的清单,便于落地到自己的项目里。
8.1 在「任务一字铺开」上花一天
- 列出目标行业 / 团队里最高频的 30 个任务。
- 给每个任务打两个分:易解性、易验证性,1~5 分。
- 画到二维图上,圈出三类区域:
- 高解 + 高验证:第一批彻底 Agent 化的目标。
- 高解 + 低验证:花精力构造 proxy verifier、做任务分解。
- 低解 + 低验证:今天先别碰,AI 只做信息助手。
8.2 给关键任务画工作树
- 选 1~2 个高优先级任务,画出它真实的 DAG,而不是脑补的「三步走」。
- 标出哪些节点是「人决策」、哪些节点是「机器可验证」、哪些节点是「灰色地带」。
- 灰色地带是 Skills 和 Elicitation 的主战场。
8.3 一次性投资 Skills,而不是迭代 Prompt
- 拒绝「再调一版 system prompt」式的短期优化。
- 把团队里资深成员的判断,结构化为一组 skills:触发条件、动作步骤、异常分支、输出 schema。
- Skills 应该有版本号、有 owner、有变更评审,像对待生产代码一样对待。
8.4 给 Agent 装 Decision Log
- 任何 Agent 替人做出的「本应人决策」选择,必须落进结构化日志。
- 日志条目至少包含:时间、节点、可选方案、采用方案、置信度、可被 reverse 的范围。
- 提供一个独立的审阅 UI,让人能一次性扫掉一批决策。
8.5 用 Guardrails 换取「敢让它跑久」
- 区分沙箱环境和生产环境,给前者最大自由度,给后者严格白名单。
- 任何不可逆动作必须经过一道显式人审。
- 制定 Agent 行动的「单次预算」(token、时间、调用次数),到顶强制暂停。
8.6 把 Chat 退回到「输入端」
- 不要把 Chat 设计成主协作界面。
- 用 Chat 启动任务、追加约束、做模糊解释。
- 用 Document / Tabular / Canvas / IDE 这类工件承担协作和审阅。
8.7 把语音、白板、图形当作 Agent 的真正接口
人和人之间被语言绑架是因为生理限制——你画不出脑子里的组织架构图,只能用嘴说。Agent 没有这个限制。
- 给 Agent 提供结构化输入:JSON schema、表格、流程图、文件树。
- 给 Agent 提供结构化输出:让它写到表格里、画到图里、写到代码块里,而不是塞回聊天框。
- 把 Agent 当作一种新型 IO 设备,而不是「一个会打字的同事」。
九、写在最后:不要把 Agent 困在人类语言里
最容易被忽视的一句话其实是:Agent 不是人,不要把它困在人类语言的低带宽通道里。
人和人协作之所以围着 Chat 和会议转,是因为我们之间只有这一根细管子可用——你脑子里那张组织架构图、那张系统拓扑、那张风险矩阵,都必须先翻译成一段段话,再被对方在脑子里重新拼回去。这是生理上的妥协。
但 Agent 不需要妥协。
- 你可以直接把组织架构图喂给它。
- 你可以直接把数据库 schema 摆在它面前。
- 你可以让它在表格、文档、画布、代码上原地协作。
- 你可以让它把决策、风险、建议结构化吐出,而不是堆成一段散文。
下一代真正强大的 Agent 产品,不会比谁的聊天框「更聪明」,而会比谁敢于跳出聊天框、敢于在更高维的工件上和人一起工作。
Verifier’s Rule、Trust × Control、Skills、Elicitation、高带宽工件——这一整套概念其实指向同一句话:
让人继续做只有人能做的事,让 Agent 做所有可以被验证的事,让两者在一个真正适合协作的界面上汇合。
开篇那个让人崩溃的三十分钟之所以存在,是因为我们仍然在用上一代界面驱动这一代 Agent。当协作界面跟上来,那段三十分钟会变成几次明确的决策点、几张被点亮的表格、几段被高亮的文档——而不是一长串「You’re absolutely right」。
这才是 Agent 工程真正值得花十年的方向。
