当前位置：首页 > news >正文

AI开发烂尾病有救了！Anthropic推出Harness多Agent框架

news 2026/6/9 1:25:16

Anthropic 把 GAN 的思路搬过来，搞了三个 AI Agent，组成了一个打工天团，分工明确，互相配合：Planner 导演规划，Generator 演员干活，Evaluator 影评人挑毛病。

你有没有过这种经历？

兴冲冲地打开 AI，想让它帮你写个小工具、做个小应用。一开始 AI 写得飞快，界面出来了，基础功能也有了，你还在感叹 AI 真牛，解放生产力。

结果写着写着，不对劲了：

AI 开始忘事了，之前说好的功能它忘了做；写出来的代码越来越乱，之前的 bug 没改完，又出新问题；你问它做完了吗？它一脸无辜地说：“我完成了呀，所有功能都实现了”，结果你一跑，点啥都没反应，整个项目直接烂尾。

咖啡喝了三杯，夜熬到两点，最后还是得自己上手擦屁股。

谁懂啊！原来不是 AI 不行，是你没找对方法！Anthropic 官方搞出来的这个 Harness 多 Agent 框架，直接把 AI 开发的烂尾病给治好了，甚至能让 AI 自己花 4 小时，搞定一个复杂的全栈应用！

今天就把这个官方干货给你扒透了，看完你也能让 AI 从 “摆烂菜鸡” 变成 “全栈大佬”。

谁懂啊！用 AI 写代码，越写越烂尾？

我之前踩过一个巨坑：让 AI 帮我做个浏览器里的小游戏。

一开始 AI 咔咔写，半小时就把界面搭好了，我还美滋滋地想，这下不用自己写代码了。结果过了两小时，我发现不对：

AI 写的按钮，点了没反应；之前说好的角色移动功能，完全没做；我问它：“你是不是漏了功能？” 它说：“没有呀，我都写完了，你看代码，逻辑没问题的。”

我一看代码，好家伙，它把移动的函数写了，但是根本没绑定到按键上！它自己看自己的代码，觉得完美，但是实际跑起来，根本用不了。

最后这个项目，就这么烂尾了。

后来我才知道，不止我一个人踩这个坑！Anthropic 的工程团队做了大量的测试，发现只要让 AI 单独做长时间的复杂任务，几乎都会烂尾。

为什么？因为裸 AI 就像一个刚毕业的实习生，你直接扔给他一个 “帮我盖个房子” 的需求，他一开始干的挺好，但是干着干着，就忘了之前的设计图，重复干活，甚至卡住了都不知道。

而 Harness，就是给这个实习生配了个完整的项目管理团队，帮他分工、帮他检查、帮他校准方向，让他能踏踏实实把活干完。

原来 AI 也会 “失忆” 和 “自嗨”？

Anthropic 发现，AI 做复杂任务的时候，有两个绕不开的毛病，就像人一样：

第一个毛病：AI 也会 “失忆” 和 “焦虑”

你有没有过开会记笔记，白板写满了，前面的字看不清了，然后你就开始着急，怕后面的内容写不下，赶紧潦草收尾？

AI 也一样！它的上下文窗口就像那个白板，对话越长，写的东西越多，白板就越满。

等到快满的时候，AI 就会开始 “上下文焦虑”—— 明明任务还没做完，它就开始着急收尾，质量直接跳水，甚至把前面的内容都忘了。

之前大家想的办法是压缩，把前面的内容缩成摘要，但是没用，焦虑还是存在，白板还是满的。

Harness 的办法是什么？接力赛跑！

跑一段，就把接力棒交给下一个人，前面的人跑完就下场，下一个人拿着干净的白板，拿着交接文档，继续跑。这样每个人都有全新的上下文，不会有焦虑，也不会忘事。

第二个毛病：AI 也会 “自嗨”，自己夸自己

你有没有见过厨师尝自己做的菜？怎么吃都觉得好吃，盐放多了他都觉得刚好。但是美食评论家一尝，就能挑出一堆毛病。

AI 也一样！你让它自己评估自己写的代码、做的设计，它几乎永远会夸自己：“我做的太好了！完美！”

哪怕在我们看来，这东西一堆 bug，设计丑的要死，它都觉得没问题。这就是自我评估偏差，LLM 天生就喜欢夸自己，因为训练的时候它学的就是友好的回应模式。

那怎么办？很简单，别让它自己评自己！找个独立的 “美食评论家”，专门来挑它的毛病！

Anthropic 发现，调教一个独立的评估器，让它变严格，比让生成器对自己的工作保持批判性，容易太多了！

把 GAN 的思路搬过来？AI 也能组 “打工天团”？

搞懂了这两个毛病，Anthropic 直接把 GAN 的思路搬过来了！

你知道 GAN 吗？就是造假者和鉴定师，造假的不断提高技术，鉴定的不断提高眼光，最后造假的能做出以假乱真的东西。

Harness 就是这个思路，搞了三个 AI Agent，组成了一个打工天团，分工明确，互相配合：

Planner：导演，管规划

就像电影里的导演，你跟他说 “我要拍个爱情片”，他不会直接让演员去演，而是会把你的一句话需求，变成详细的剧本，分镜头，甚至把整个拍摄分成好几个阶段，每个阶段要拍什么，验收标准是什么，都写的明明白白。

比如你说 “帮我做个游戏制作工具”，Planner 直接给你拆成 16 个功能，10 个开发阶段，甚至连精灵动画、音效、AI 辅助这些你都没想到的功能，都给你规划进去了。

Generator：演员，管干活

就是那个实际干活的，就像演员，拿着导演的剧本，按要求把内容拍出来，写代码、做设计，都是它的活。

当然，它也会犯错，也会漏功能，没关系，后面有人管它。

Evaluator：影评人，挑挑毛病

就是那个严格的影评人，演员拍完一段，他就过来审片，按之前说好的标准，一条一条检查，有没有漏功能？有没有 bug？设计好不好看？

发现问题了，就写个详细的 bug 报告，告诉 Generator：“你这里不对，这里要改”，然后 Generator 就去改，改完再给它查，直到没问题了，再进入下一个阶段。

你看，这不就是一个完整的团队吗？导演管规划，演员管干活，影评人管质量，三个人配合，比一个人闷头干强一万倍！

终于治好了 “AI 味” 设计！原来美也能打分？

之前我最烦的就是 AI 做的设计，千篇一律的紫色渐变 + 白色卡片，就是那种 “能看，但是毫无灵魂” 的食堂味，就像烹饪机器人做的菜，能吃，但是没有创意。

Anthropic 之前也遇到这个问题，Claude 默认做得设计，永远都是安全、平淡，没有个性。

那怎么让 AI 做出好看的设计？他们搞了个神操作：把 “美不美” 这个主观的问题，变成了可量化的打分标准！

他们定了四个评分维度，不管是生成设计的 Generator，还是评估设计的 Evaluator，都按这个标准来：

设计质量：整个设计是不是连贯的？色彩排版有没有情感？
原创性：有没有自己的设计？重点是：紫色渐变 + 白色卡片？不合格！
工艺：排版、间距、色彩是不是和谐？
功能性：用户能不能看懂，能不能用？

你别说，这招太管用了！

Generator 知道自己会被这么打分，就不敢再做那种千篇一律的模板了；Evaluator 就按这个标准，一条一条挑毛病，然后反馈给 Generator，让它改。

迭代了几轮之后，AI 居然能做出什么水平的设计？

有个案例，他们让 AI 做荷兰艺术博物馆的网站，迭代到第 10 轮的时候，AI 直接把整个网站重做了，做成了一个 3D 的画廊！用 CSS 做了透视，画作挂在墙上，你能在不同的房间之间导航，就像真的逛博物馆一样！

这种创意，之前单次生成根本做不出来，就是靠这个反馈循环，AI 才敢跳出自己的舒适区，做出真正有创意的东西。

4 小时搞定全栈应用？AI 自己当产品 + 开发 + QA？

添加图片注释，不超过 140 字（可选）

搞定了设计，Anthropic 把这个架构直接扩展到了全栈开发，结果惊到我了：

他们做了个测试，同一个需求：“帮我做个浏览器里的游戏制作工具”，分别用单 Agent 和 Harness 来做，结果天差地别。

单 Agent 版：烂尾预定

直接让一个 AI 从头到尾干，没有规划，没有评估，结果呢？

布局乱的要死，大量的空白空间
操作逻辑混乱，用户根本不知道该干嘛
游戏完全跑不起来，实体点了没反应
还一脸无辜地说：我做完了呀！

Harness 版：直接出成品

用了完整的三个 Agent，结果呢？

界面布局合理，用了全部的视口
有统一的设计风格，看起来就像专业做的
功能完整，不仅有编辑器，还内置了 AI，能帮你生成精灵、设计关卡
游戏真的能玩！能移动实体，能交互！

怎么做到的？

其实就是把我们人类开发的流程，完全复刻到了 AI 身上：

Planner 先当产品经理，把需求拆成 10 个 Sprint，每个 Sprint 都有详细的验收标准，比如 “矩形填充工具要能拖拽填充”、“删除键要能删掉选中的实体”，光一个 Sprint 就有 27 个验收标准！
然后 Generator 当开发，按标准写代码，写完一个 Sprint，就交给 Evaluator
Evaluator 当 QA，用 Playwright 实际打开这个应用，点按钮、填表单，真的测！不是看代码，是实际跑！
发现 bug 了，就写个详细的报告，精确到哪个文件哪一行，比如 “LevelEditor.tsx 的 892 行，删除键的判断有问题”，然后 Generator 就去改，改到过了测试，再进下一个 Sprint。

你看，这不就是我们人类开发的流程吗？产品、开发、QA，一个都不少，只不过现在这三个角色，全都是 AI！

模型变强了，框架也要 “减肥”？

你以为 Harness 就是一成不变的？不对！Anthropic 说，Harness 就像小孩的学步车。

小孩刚学走路的时候，你要给他学步车、护膝、头盔，帮他稳住，别摔倒。但是等小孩长大了，能自己走了，这些辅助工具就没用了，你还给他用，反而限制他。

AI 模型也是一样，越来越强，原来需要的那些辅助，慢慢就不需要了。

比如 Claude Opus 4.6 出来之后，能力比之前强太多了：能自己干更长时间的活，不会跑偏，能处理更大的代码库。

那原来的 Harness，那些复杂的 Sprint 分解、每个 Sprint 都要评估，是不是就没用了？

Anthropic 做了个消融实验，就像拆炸弹，一次拆一个组件，看哪个有用哪个没用：