当前位置: 首页 > news >正文

AI开发烂尾病有救了!Anthropic推出Harness多Agent框架

Anthropic 把 GAN 的思路搬过来,搞了三个 AI Agent,组成了一个打工天团,分工明确,互相配合:Planner 导演规划,Generator 演员干活,Evaluator 影评人挑毛病。

你有没有过这种经历?

兴冲冲地打开 AI,想让它帮你写个小工具、做个小应用。一开始 AI 写得飞快,界面出来了,基础功能也有了,你还在感叹 AI 真牛,解放生产力。

结果写着写着,不对劲了:

AI 开始忘事了,之前说好的功能它忘了做; 写出来的代码越来越乱,之前的 bug 没改完,又出新问题; 你问它做完了吗?它一脸无辜地说:“我完成了呀,所有功能都实现了”,结果你一跑,点啥都没反应,整个项目直接烂尾。

咖啡喝了三杯,夜熬到两点,最后还是得自己上手擦屁股。

谁懂啊!原来不是 AI 不行,是你没找对方法!Anthropic 官方搞出来的这个 Harness 多 Agent 框架,直接把 AI 开发的烂尾病给治好了,甚至能让 AI 自己花 4 小时,搞定一个复杂的全栈应用!

今天就把这个官方干货给你扒透了,看完你也能让 AI 从 “摆烂菜鸡” 变成 “全栈大佬”。


谁懂啊!用 AI 写代码,越写越烂尾?

我之前踩过一个巨坑:让 AI 帮我做个浏览器里的小游戏。

一开始 AI 咔咔写,半小时就把界面搭好了,我还美滋滋地想,这下不用自己写代码了。结果过了两小时,我发现不对:

AI 写的按钮,点了没反应; 之前说好的角色移动功能,完全没做; 我问它:“你是不是漏了功能?” 它说:“没有呀,我都写完了,你看代码,逻辑没问题的。”

我一看代码,好家伙,它把移动的函数写了,但是根本没绑定到按键上!它自己看自己的代码,觉得完美,但是实际跑起来,根本用不了。

最后这个项目,就这么烂尾了。

后来我才知道,不止我一个人踩这个坑!Anthropic 的工程团队做了大量的测试,发现只要让 AI 单独做长时间的复杂任务,几乎都会烂尾。

为什么?因为裸 AI 就像一个刚毕业的实习生,你直接扔给他一个 “帮我盖个房子” 的需求,他一开始干的挺好,但是干着干着,就忘了之前的设计图,重复干活,甚至卡住了都不知道。

而 Harness,就是给这个实习生配了个完整的项目管理团队,帮他分工、帮他检查、帮他校准方向,让他能踏踏实实把活干完。


原来 AI 也会 “失忆” 和 “自嗨”?

Anthropic 发现,AI 做复杂任务的时候,有两个绕不开的毛病,就像人一样:

第一个毛病:AI 也会 “失忆” 和 “焦虑”

你有没有过开会记笔记,白板写满了,前面的字看不清了,然后你就开始着急,怕后面的内容写不下,赶紧潦草收尾?

AI 也一样!它的上下文窗口就像那个白板,对话越长,写的东西越多,白板就越满。

等到快满的时候,AI 就会开始 “上下文焦虑”—— 明明任务还没做完,它就开始着急收尾,质量直接跳水,甚至把前面的内容都忘了。

之前大家想的办法是压缩,把前面的内容缩成摘要,但是没用,焦虑还是存在,白板还是满的。

Harness 的办法是什么?接力赛跑!

跑一段,就把接力棒交给下一个人,前面的人跑完就下场,下一个人拿着干净的白板,拿着交接文档,继续跑。这样每个人都有全新的上下文,不会有焦虑,也不会忘事。

第二个毛病:AI 也会 “自嗨”,自己夸自己

你有没有见过厨师尝自己做的菜?怎么吃都觉得好吃,盐放多了他都觉得刚好。但是美食评论家一尝,就能挑出一堆毛病。

AI 也一样!你让它自己评估自己写的代码、做的设计,它几乎永远会夸自己:“我做的太好了!完美!”

哪怕在我们看来,这东西一堆 bug,设计丑的要死,它都觉得没问题。这就是自我评估偏差,LLM 天生就喜欢夸自己,因为训练的时候它学的就是友好的回应模式。

那怎么办?很简单,别让它自己评自己!找个独立的 “美食评论家”,专门来挑它的毛病!

Anthropic 发现,调教一个独立的评估器,让它变严格,比让生成器对自己的工作保持批判性,容易太多了!


把 GAN 的思路搬过来?AI 也能组 “打工天团”?

搞懂了这两个毛病,Anthropic 直接把 GAN 的思路搬过来了!

你知道 GAN 吗?就是造假者和鉴定师,造假的不断提高技术,鉴定的不断提高眼光,最后造假的能做出以假乱真的东西。

Harness 就是这个思路,搞了三个 AI Agent,组成了一个打工天团,分工明确,互相配合:

Planner:导演,管规划

就像电影里的导演,你跟他说 “我要拍个爱情片”,他不会直接让演员去演,而是会把你的一句话需求,变成详细的剧本,分镜头,甚至把整个拍摄分成好几个阶段,每个阶段要拍什么,验收标准是什么,都写的明明白白。

比如你说 “帮我做个游戏制作工具”,Planner 直接给你拆成 16 个功能,10 个开发阶段,甚至连精灵动画、音效、AI 辅助这些你都没想到的功能,都给你规划进去了。

Generator:演员,管干活

就是那个实际干活的,就像演员,拿着导演的剧本,按要求把内容拍出来,写代码、做设计,都是它的活。

当然,它也会犯错,也会漏功能,没关系,后面有人管它。

Evaluator:影评人,挑挑毛病

就是那个严格的影评人,演员拍完一段,他就过来审片,按之前说好的标准,一条一条检查,有没有漏功能?有没有 bug?设计好不好看?

发现问题了,就写个详细的 bug 报告,告诉 Generator:“你这里不对,这里要改”,然后 Generator 就去改,改完再给它查,直到没问题了,再进入下一个阶段。

你看,这不就是一个完整的团队吗?导演管规划,演员管干活,影评人管质量,三个人配合,比一个人闷头干强一万倍!


终于治好了 “AI 味” 设计!原来美也能打分?

之前我最烦的就是 AI 做的设计,千篇一律的紫色渐变 + 白色卡片,就是那种 “能看,但是毫无灵魂” 的食堂味,就像烹饪机器人做的菜,能吃,但是没有创意。

Anthropic 之前也遇到这个问题,Claude 默认做得设计,永远都是安全、平淡,没有个性。

那怎么让 AI 做出好看的设计?他们搞了个神操作:把 “美不美” 这个主观的问题,变成了可量化的打分标准!

他们定了四个评分维度,不管是生成设计的 Generator,还是评估设计的 Evaluator,都按这个标准来:

  1. 设计质量:整个设计是不是连贯的?色彩排版有没有情感?

  2. 原创性:有没有自己的设计?重点是:紫色渐变 + 白色卡片?不合格!

  3. 工艺:排版、间距、色彩是不是和谐?

  4. 功能性:用户能不能看懂,能不能用?

你别说,这招太管用了!

Generator 知道自己会被这么打分,就不敢再做那种千篇一律的模板了;Evaluator 就按这个标准,一条一条挑毛病,然后反馈给 Generator,让它改。

迭代了几轮之后,AI 居然能做出什么水平的设计?

有个案例,他们让 AI 做荷兰艺术博物馆的网站,迭代到第 10 轮的时候,AI 直接把整个网站重做了,做成了一个 3D 的画廊!用 CSS 做了透视,画作挂在墙上,你能在不同的房间之间导航,就像真的逛博物馆一样!

这种创意,之前单次生成根本做不出来,就是靠这个反馈循环,AI 才敢跳出自己的舒适区,做出真正有创意的东西。


4 小时搞定全栈应用?AI 自己当产品 + 开发 + QA?

添加图片注释,不超过 140 字(可选)

搞定了设计,Anthropic 把这个架构直接扩展到了全栈开发,结果惊到我了:

他们做了个测试,同一个需求:“帮我做个浏览器里的游戏制作工具”,分别用单 Agent 和 Harness 来做,结果天差地别。

单 Agent 版:烂尾预定

直接让一个 AI 从头到尾干,没有规划,没有评估,结果呢?

  • 布局乱的要死,大量的空白空间

  • 操作逻辑混乱,用户根本不知道该干嘛

  • 游戏完全跑不起来,实体点了没反应

  • 还一脸无辜地说:我做完了呀!

Harness 版:直接出成品

用了完整的三个 Agent,结果呢?

  • 界面布局合理,用了全部的视口

  • 有统一的设计风格,看起来就像专业做的

  • 功能完整,不仅有编辑器,还内置了 AI,能帮你生成精灵、设计关卡

  • 游戏真的能玩!能移动实体,能交互!

怎么做到的?

其实就是把我们人类开发的流程,完全复刻到了 AI 身上:

  1. Planner 先当产品经理,把需求拆成 10 个 Sprint,每个 Sprint 都有详细的验收标准,比如 “矩形填充工具要能拖拽填充”、“删除键要能删掉选中的实体”,光一个 Sprint 就有 27 个验收标准!

  2. 然后 Generator 当开发,按标准写代码,写完一个 Sprint,就交给 Evaluator

  3. Evaluator 当 QA,用 Playwright 实际打开这个应用,点按钮、填表单,真的测!不是看代码,是实际跑!

  4. 发现 bug 了,就写个详细的报告,精确到哪个文件哪一行,比如 “LevelEditor.tsx 的 892 行,删除键的判断有问题”,然后 Generator 就去改,改到过了测试,再进下一个 Sprint。

你看,这不就是我们人类开发的流程吗?产品、开发、QA,一个都不少,只不过现在这三个角色,全都是 AI!


模型变强了,框架也要 “减肥”?

你以为 Harness 就是一成不变的?不对!Anthropic 说,Harness 就像小孩的学步车。

小孩刚学走路的时候,你要给他学步车、护膝、头盔,帮他稳住,别摔倒。但是等小孩长大了,能自己走了,这些辅助工具就没用了,你还给他用,反而限制他。

AI 模型也是一样,越来越强,原来需要的那些辅助,慢慢就不需要了。

比如 Claude Opus 4.6 出来之后,能力比之前强太多了:能自己干更长时间的活,不会跑偏,能处理更大的代码库。

那原来的 Harness,那些复杂的 Sprint 分解、每个 Sprint 都要评估,是不是就没用了?

Anthropic 做了个消融实验,就像拆炸弹,一次拆一个组件,看哪个有用哪个没用:

  • 他们把 Sprint 结构拆了,发现没问题!Opus 4.6 能自己连续干 2 小时的活,不需要拆成小块了

  • 他们把 Evaluator 从每个 Sprint 都测,改成整个做完了测一次,也没问题,成本直接降了好多

  • 但是 Planner 不能拆!没了 Planner,AI 就会直接开始写代码,忘了做规划,最后做出来的功能,少了一大半!

哦,原来如此!模型变强了,我们的框架就要跟着 “减肥”,把没用的辅助拿掉,留下真正有用的部分,这样既省钱,又高效。


花 124 刀,AI 用 4 小时做了个音乐工作站?

最后,他们用优化后的 Harness,做了个终极测试:让 AI 做一个浏览器里的 DAW,也就是数字音频工作站,就是我们用来做音乐的那种软件,有音轨、混音、效果器,非常复杂。

结果是什么?

整个过程花了 3 小时 50 分钟,总成本 124.7 美元。

你没看错,4 小时不到,花了不到一千块人民币,AI 就自己把这个复杂的音乐软件做出来了!

中间的过程也很有意思:

  • 第一轮 Build,AI 花了 2 小时,把主体做出来了,但是 Evaluator 一测,发现一堆问题:音频片段不能拖、没有乐器面板、效果器没有可视化

  • 然后 AI 改了 1 小时,第二轮 Build,又测,发现还有问题:录音功能是假的、片段不能改大小、效果器还是滑块不是曲线

  • 再改 10 分钟,第三轮,终于搞定了

最后做出来的东西,居然真的能用:有编排视图,能拖音频片段;有混音器,能调音量;甚至还内置了 AI,你能跟它说 “帮我做个 4/4 拍的流行旋律”,它就直接给你生成了!

你想想,要是让人类团队做这个,一个产品 + 一个前端 + 一个后端 + 一个 QA,4 小时要多少钱?远不止 124 块吧?这效率,直接拉满了!


最后聊聊

其实 Harness 不是什么黑科技,它最厉害的地方,就是把我们人类社会里最有效的协作模式,搬到了 AI 身上。

我们都知道,一个人干不过一个团队,哪怕这个人再厉害。AI 也是一样,哪怕模型再强,一个 AI 干复杂任务,也会有失忆、自嗨的毛病,但是把它拆分成分工明确的团队,规划的、干活的、挑毛病的,互相配合,就能搞定远超单个 AI 能力的复杂任务。

而且最妙的是,这个框架不是死的,它会跟着模型一起进化,模型变强了,我们就把辅助的东西拿掉,让 AI 更自主,永远用最简单的方式,解决问题。


💬 最后问你个问题: 你有没有过用 AI 开发项目烂尾的经历?是 AI 写着写着失忆了,还是它自我感觉良好但实际一堆 bug?评论区聊聊你的踩坑经历,我们一起看看怎么治 AI 的烂尾病!

http://www.jsqmd.com/news/688717/

相关文章:

  • PrimeTime约束检查的隐藏技巧:用好all_fanin和get_attribute命令快速Debug
  • 2026公共卫生执业医师备考:如何找到高效提分的突破口? - 医考机构品牌测评专家
  • 为什么你的LPDDR5“看起来没问题”,却在关键时刻翻车?
  • 2026年4月人体工学椅成人椅品牌对比:从久坐办公到午休放松的决策框架 - Amonic
  • 别再死记硬背了!用Python和NumPy图解Woodbury恒等式,让矩阵求逆变简单
  • 视觉Transformer加速器的低功耗设计与优化策略
  • ROS Melodic下,如何用TurtleBot3模型快速配置Gmapping SLAM参数(调试心得分享)
  • 16G显存能跑的本地模型精选(2026年)
  • 2026中西医执医:跟对老师少走弯路 - 医考机构品牌测评专家
  • 技术深度:AB Download Manager的架构解构与高性能扩展体系
  • 赢在起点和昂立:早教理念的不同探索 - 品牌排行榜
  • 避坑必看!组织研磨仪哪家靠谱?真实验室用户评价汇总 - 品牌推荐大师
  • 如何5分钟搭建个人游戏串流服务器:Sunshine跨平台游戏共享完整指南
  • 从Arduino到树莓派:实战中如何为你的项目选择I2C、SPI或CAN总线?
  • 以航空发动机涡轮叶片为例论工程验证的双端有损结构 On the Dual-End Lossy Structure of Engineering Validation: A Case Study of
  • 老K3焕发第二春:从梅林断流到OpenWrt稳定NAS,保姆级刷机与NFS配置全记录
  • 2026医师资格证网课怎么选?聚焦这四个核心 - 医考机构品牌测评专家
  • 跨境电商团队新人培养:从0到1的实战体系搭建指南
  • 错排问题
  • 用Node.js和Express绕过权限,零成本搭建你的专属LOL战绩查询工具(附完整源码)
  • Fairseq-Dense-13B-Janeway环境部署:基于insbase-cuda124-pt250-dual-v7的完整指南
  • C程序员最后的内存安全窗口期:2026 Q2起FIPS 140-3认证与ISO/IEC 17961:2026将强制要求静态分析覆盖率≥98.7%
  • 【Qt】分享一个笔者持续更新的项目: https://github.com/missionlove/NQUI
  • 2026执医笔试冲刺,如何选对备考机构? - 医考机构品牌测评专家
  • Happy Island Designer终极指南:3步打造梦想岛屿的完整教程
  • 陕西设计资质代办2026:行业变革与本土优质代办企业 - 深度智识库
  • 集团型企业用哪款内网即时通讯比较合适?(2026 集团选型指南)
  • 别再死记硬背公式了!用Arduino+DRV8313手把手带你理解FOC的SVPWM核心(附代码)
  • 题解:AT_arc215_d [ARC215D] cresc.
  • 告别时间协调烦恼,派对模式助你高效决策