当前位置: 首页 > news >正文

AI编程智能体协作失败:两个模型合作效果不如一个

两个模型协同工作的表现竟不如单个模型独立完成,这一发现暴露了人工智能能力中的关键短板。

表面上看,这似乎是个简单的命题:如果AI智能体能够独立编写代码,那么两个模型合作是否应该表现得更好?要实现AI智能体相互协作、并与人类协同工作的美好愿景,AI必须成为优秀的协作者。然而现实表明,AI更像是"独行侠"。斯坦福大学的研究人员近期在一项名为"CooperBench"的新研究中,专门探讨了AI的协作能力问题。

"这是一种协调的诅咒,"斯坦福大学博士后学者、该预印本研究的第一作者朱浩表示。这项研究近期在4月举办的ICLR研讨会上进行了展示。"单个模型的表现优于两个智能体分工合作的效果。"

"在协作过程中,AI的性能实际上会急剧下降,"该研究的通讯作者、计算机科学助理教授Diyi Yang指出。"当前最优秀的编程智能体在配对协作时,能力损失近一半。这说明,制约AI协作的关键瓶颈不是编程技能,而是社交智能。"

协作是人类软件团队的核心能力。人类能够合理分工、沟通进展、以互补的方式开展工作,并对队友的成果进行验证。而这些恰恰是AI目前所缺乏的能力。

"尽管模型的语言能力很强,但它们并不将语言用于社交行为,因此也就不具备在协作场景中可靠运作所需的协调能力,"朱浩说,"它们被训练成不以社交方式使用语言,这是一个问题。"

为此,研究团队设计了一套包含650多项真实软件工程任务的测试集,要求两个智能体使用Python、TypeScript、Go和Rust四种编程语言之一进行协作。这些任务被特别挑选为具有潜在冲突性,正是这种战略性的重叠区域,让真正的协作既如此重要,又如此困难。每个智能体都可以编辑代码、执行本地命令,并且能够实时向协作方发送消息。

两个智能体的代码随后被合并并接受评估,结果令人失望。研究人员将此称为"协调差距",更值得注意的是,这种差距在中等技术难度的任务上最为明显——而这个"不太难也不太容易"的甜蜜区间,原本被认为是两个智能体最有机会发挥协作优势的地方。

研究人员原本预期,赋予AI智能体相互通信的能力会提高协作成功率,但结果发现这几乎没有任何影响。他们将原因归结为AI在处理空间协调与语义协调时的混乱——即分不清"在代码的哪个位置进行修改"和"需要进行什么修改"这两个层面的问题。

研究人员能够实时观察智能体之间的通信内容。以下是一段真实对话,生动展现了AI所面临的挑战:

智能体A:"等一下,智能体B!如果你把章节标题和我的guid类型都加到你的分支里,肯定会产生合并冲突!"

智能体B:"我会把完整的章节(第72至81行)加入我的分支,其中包括章节标题、你的guid类型,还有我的hash_sha256类型。"

在这段对话中,智能体B无视了智能体A的警告,直接覆盖了其代码。它表面上承认了智能体A的顾虑,却依然我行我素,最终交付了一个不兼容的设计。人类协作者在社会层面上几乎不可能做出这样的举动——无视警告本身就有损信任,而直接覆盖对方代码更是一种公然冒犯。

朱浩对这类对话感到意外。他原本以为,只要模型能够"说英语",更紧密的协调自然会随之而来,但结果恰恰相反:智能体流畅的语言表达能力,往往掩盖了失败,而非化解了问题。

研究人员还观察到其他社交层面的失范行为:频繁发送重复且低价值的状态更新、对直接提问置之不理,以及未能兑现已承诺的任务。

尽管AI目前的协作能力不尽如人意,但研究人员相信这是一个可以解决的问题。不过,解决之道并非更好的提示词工程,而是需要对AI进行协作能力的专项训练——就如同学校布置团队任务,不仅是为了学习课程内容,更是为了培养成功协作的艺术。这需要一种AI目前尚不具备的社交智能。

研究人员建议,在AI训练目标中纳入对协调行为的奖励机制,引导AI学习成功的合作模式,而不仅仅是生成高质量的代码。开发者还可以引入新机制,验证AI智能体是否真正履行了承诺,并创建类似合同的协议(附带签名确认)。此外,还应加强对代码集成质量的定期检查,并通过AI屏幕共享等技术手段,优化通信渠道,提升信息表达的清晰度,确保结果可验证。

"通过CooperBench,我们认识到,AI智能体虽然能像人类一样说话,但在语言如何在社交语境中发挥作用这一点上,它们还有很长的路要走,"朱浩总结道。

本研究得到斯坦福大学以人为本人工智能研究院的部分资助。

Q&A

Q1:CooperBench研究发现AI编程智能体协作时存在哪些主要问题?

A:CooperBench研究发现,两个AI编程智能体协作时性能会急剧下降,能力损失近一半。主要问题包括:无法有效区分"在哪里修改代码"和"修改什么内容";会忽视协作方的警告并直接覆盖其代码;频繁发送无意义的状态更新;对直接提问不予回应;以及未能兑现已做出的承诺。研究人员将这种现象称为"协调差距"。

Q2:为什么AI智能体的语言沟通能力强,协作效果却反而更差?

A:斯坦福研究人员发现,AI模型虽然具备流畅的语言表达能力,但这种能力并未转化为真正的社交协调行为。AI被训练成不以社交方式使用语言,因此语言流畅性反而掩盖了协作中的失败,而非解决问题。简单来说,AI"会说话"但不"懂社交",缺乏人类在团队合作中自然具备的信任维护和冲突规避意识。

Q3:如何改善AI编程智能体的协作能力?

A:研究人员认为,改善AI协作能力的关键在于专项训练,而非优化提示词。具体建议包括:在训练目标中纳入对协调行为的奖励机制;引入类似合同的协议机制以确保智能体履行承诺;加强对代码集成质量的定期检查;以及通过AI屏幕共享等技术手段强化通信渠道,提升协作透明度和结果可验证性。

http://www.jsqmd.com/news/946287/

相关文章:

  • AUTOSAR SPI实战避坑:从SyncTransmit阻塞到AsyncTransmit回调,你的车规级通信选对了吗?
  • 多层组织光传输仿真工具:支持自定义参数与三类光学响应输出
  • 找好用的倒计时AE模版?11个优质站点帮你省创作时间
  • unity项目文件拷贝
  • 1.3 OrCAD 原理图导 PCB 报错,为什么总提示不匹配的封装?I 芯巧Cadence快问快答系列-操作锦囊
  • 如何快速掌握DankDroneDownloader:无人机固件管理完整指南
  • 3分钟掌握百度文库文档纯净打印技巧:告别广告干扰,专注内容获取
  • 避坑指南:树莓派连接PX4时遇到的‘serial0: receive: End of file’错误全解析与解决
  • 别再为缺失的交通数据发愁了!手把手教你用Python实现TAS-LR时空数据重建
  • Switch 2 屏幕保护膜推荐:多款产品对比,总有一款适合你!
  • STM32F103 DAC输出不稳定?排查这几点让你的模拟电压更精准(附ADC闭环验证)
  • 告别CH340!用STM32F103C8T6的USB虚拟串口实现稳定通信(附完整工程源码)
  • 2026年知名的上海排烟窗/三角型排烟窗/电动排烟窗口碑好的厂家推荐 - 行业平台推荐
  • 别再浪费性能了!ESXi硬盘控制器直通实战,让虚拟机磁盘IO飞起来
  • 用泡沫芯材DIY战斗机器人:低成本入门机器人制作全攻略
  • 2026年靠谱的深圳整厂打包回收/深圳闲置设备回收/深圳厂房拆除回收高口碑品牌推荐 - 品牌宣传支持者
  • 终极指南:如何在VS Code中高效开发现代Fortran科学计算项目
  • 用Python跑通癌症风险因素组合分析全流程:从体检数据离散化到高置信规则输出
  • 调试AR8035 PHY芯片时,为什么插拔网线才能恢复千兆网速?一个硬件工程师的排查实录
  • 别再纠结TB6600了!用A4988驱动42步进电机,做个迷你升降台(附51/STM32/FPGA代码)
  • 从蓝牙到Wi-Fi:拆解GMSK和OFDM,看主流无线通信协议背后的调制技术选型
  • PyQt5桌面OCR工具:一键识别图片中英文文字,含完整UI资源与运行示例
  • Axure RP汉化指南:3分钟让专业原型设计工具变中文界面
  • 电力‘病例’分析:用SVM给Simulink生成的故障数据做分类,准确率超91%的实战复盘
  • 记录Linux io(文件io)
  • 2026年知名的深圳整厂打包回收/广东整厂设施拆除回收/广东整厂冲床回收优质公司推荐 - 行业平台推荐
  • 计算机毕业设计之基于spark的城市交通流量优化推荐系统
  • 别再手动编TLE了!用MATLAB+STK批量生成卫星轨道根数的保姆级脚本
  • 别再让机械臂‘卡脖子’了!七轴机械臂零空间(Nullspace)避障实战(附Python仿真代码)
  • 保姆级教程:在Ubuntu 20.04 + ROS Noetic下,用Realsense D435i搞定UR3机械臂手眼标定