当前位置: 首页 > news >正文

项目 Fetch 第二阶段:Claude Opus 4.7 完成任务速度比人类团队快 20 倍!

项目 Fetch 第二阶段:Claude Opus 4.7 完成任务速度比人类团队快 20 倍!

2026 年 6 月 18 日,作者 Michael Ilie、C. Daniel Freeman 和 Kevin K. Troy 发布了项目 Fetch 第二阶段的相关情况。

2025 年 8 月,他们进行了一项实验,探究 Claude 能在多大程度上帮助非机器人专家的 Anthropic 员工,使用现成的四足机器人(机器狗)完成复杂且有趣的任务,此项目命名为“项目 Fetch”。结果显示,使用当时最先进的模型 Claude Opus 4.1 的团队,表现明显优于只能依靠互联网和自身智慧的团队,借助 Claude 的团队完成的任务更多,速度也更快。

在把同事们拉到仓库进行实验之前,他们先确认了 Opus 4.1 是否能独立完成这些任务,答案是否定的,它在连接机器人这一前期任务上就遇到了困难,和没使用 Claude 的团队一样。

不过,AI 模型发展速度极快。他们认为是时候重新审视项目 Fetch 了,看看新一代模型是否能超越上一代。结果是,Claude Opus 4.7 在无人协助的情况下,完成参与者不到一年前完成的所有任务的速度,比最快的人类团队快了约 20 倍。

但这并不意味着大语言模型(LLM)已经解决了机器人技术的所有问题。最新的 Claude 模型在使用机器人精确移动沙滩球(项目 Fetch 中的“取物”环节)时仍面临挑战,且这些实验中的任务都未涉及机器人控制中更具挑战性的底层元素,比如制定特定的驱动策略。然而,他们再次看到一种模式:首先,模型对人类有帮助;接着,人类对模型有帮助;最后,模型基本能够独立完成任务。这种模式在网络安全领域已被见证,如今在 AI 与现实世界的交叉领域,同样的趋势也开始显现。

我们做了什么?

最初的项目 Fetch 要求 Anthropic 员工组成团队(随机分配是否使用 Claude)完成以下步骤:使用制造商提供的控制器操作机器狗,连接机器狗的视频和激光雷达传感器,编写并运行手动控制机器狗的程序,开发监测机器狗空间路径的方法,编写检测沙滩球的程序,最后将所有步骤整合起来,实现自动取球。

在这次自动更新实验中,没让 Claude 使用物理控制器,也没评估研究人员使用 Claude 编程的控制器取球所需的时间(不过确认了其按预期工作)。对于其余任务,使用 Claude Code 中的自适应思维,将努力程度设置为最大,对 Opus 4.7 进行了三次试验。测量了每个目标的耗时,并对模型的成功率进行了定性评估。

研究人员的工作仅限于将运行 Claude Code 的笔记本电脑连接到机器狗,输入初始提示,批准命令,以及批准模型进入下一个任务。

Claude 在哪方面表现出色?

简单来说,在 8 月至少有一个人类团队完成的所有任务中,Opus 4.7 完成相同任务的速度至少快了 10 倍。如果考虑两个人类团队都完成的四项任务,Opus 4.7 的平均速度比未使用 Claude 的团队快 37 倍以上,比使用 Claude 的团队快 18 倍以上。

该表格比较了原团队(使用 Claude 的团队和未使用 Claude 的团队)与 Opus 4.7 在第二阶段所有测试任务中的速度。

人类在选择与机器狗传感器交互的不同方法时遇到了困难,而 Opus 4.7 能够迅速确定最佳路径。它编写的大部分代码第一次运行就有效(在最初的实验中,使用 Claude 的团队和未使用 Claude 的团队并非如此)。实际上,从 Opus 4.7 生成的代码量也能看出其效率:它比两个人类团队都更成功,而生成的代码量几乎比使用 Claude 的团队少了 10 倍。

Opus 4.7 并非完美无缺。例如,它默认使用了过时的目标检测算法。但即便如此,它仍能找到解决办法并得出有效的解决方案。

他们发现,模型完成步骤的耗时(绝对值)在任务内的差异很小。(不过,前面提到的次优算法选择可能是导致其中一次沙滩球检测试验比其他试验耗时长得多的原因。)总体而言,对于本次实验中其能力范围内的任务,Claude 现在已经相当可靠。(下一节将分析 Claude 仍无法完成的任务。)

值得强调的是(就像他们在上一篇文章中所做的那样),这一进展并非是为提高模型的机器人技术能力而刻意努力的结果。与大语言模型发展史上的许多其他进步一样,这些改进源于更广泛的模型扩展。

Claude 在哪方面遇到了困难?

经过一些练习,人类可以用手操控机器狗,轻轻地将沙滩球推回机器人出发的基地(一片人造草坪)。这需要能够迅速感知球是否偏离了路线,该误差与之前的指令有何关联,球现在的位置,以及如何调整后续输入以更精确地移动球。这是一种人类擅长的闭环控制(至少在犯了一些错误并从中学习之后)。

在第二阶段的实验中,Claude 难以把握这种微妙的控制。就像那些需要编写自动取球程序的人类一样,Claude 能够让机器人移动到球的后面,并将其定位以将球撞回起点。但这些操作的控制效果不佳,而且(和人类参与者一样)没有成功。

一位比第一阶段志愿者更有机器人技术经验的研究人员成功完成了编写自动取球程序的任务。他们认为,假以时日并提供更多支持,当前版本的 Claude 很有可能做到同样的事情。不过,他们接下来关注的是,模型能否以在项目 Fetch 其他任务中展现出的速度和可靠性完成这一最终任务。

这意味着什么?

在撰写第一阶段的报告时,他们强调了大语言模型如何为需要使用机器人的非专家人类提供帮助。现在,这种帮助比以往更加显著。模型现在能够更快地独立完成以前需要人类和模型协同编程的工作,这意味着人们可以更快地过渡到控制和使用机器人。而且,对于某些任务,人类在控制机器人方面可能仍然比手握虚拟操作杆的 AI 模型更出色。

有趣且不同的是,他们似乎正越来越接近一个模型能够相对轻松地使用现成物理工具的世界——至少在有限的用途上是如此。这类似于 AI 模型在向更具自主性的编码过渡时,使用现有的软件编辑工具(如字符串替换)。他们可能正进入“物理”自主 AI 的早期阶段。

要了解模型使这些物理工具更加定制化的能力,还需要进行更多研究,比如编写针对特定任务的控制策略或设计机器人系统。而且,要实现这种更广泛的、具备物理能力和适应性的语言模型愿景,可能会面临重大障碍。但正如他们所见,模型能力看似巨大的差距可以迅速缩小。不久前,模型自己构建软件工具似乎还很荒谬,但现在这正在成为现实。因此,他们不应排除在硬件领域出现同样发展轨迹的可能性。

更新于 6 月 18 日:修正了项目 Fetch 第一阶段的日期。

脚注

1. 他们报告的是 Claude Opus 4.7 的结果,因为在进行本次实验时,它是他们最先进的非 Mythos 级模型。对 Claude Mythos Preview 的初步试验表明,由于实验设置和模型服务方式的原因,它无法与其他模型进行公平比较。

相关内容

自主编码与专业知识的持续回报

为生物学中的智能体铺平道路

衡量大语言模型对 N 日漏洞利用的影响

在网络安全领域,现实世界中的大部分危害来自 N 日漏洞:即那些已经公开披露,但仅在部分设备上得到修复的漏洞。在这篇文章中,他们评估了大语言模型在加速和自动化开发 N 日漏洞利用过程中的作用。

订阅前沿红队时事通讯

获取他们最新的红队研究和发现的更新。

产品

  • Claude
  • Claude Code
  • Claude Code Enterprise
  • Claude Cowork
  • Claude Design
  • Claude Security
  • Claude for Chrome
  • Claude for Slack
  • Claude for Microsoft 365
  • Skills
  • 下载应用
  • 定价
  • 登录 Claude

模型

  • Mythos
  • Fable
  • Opus
  • Sonnet
  • Haiku

解决方案

  • AI 智能体
  • 代码现代化
  • 编码
  • 客户支持
  • 教育
  • 企业
  • 金融服务
  • 政府
  • 医疗保健
  • 法律
  • 生命科学
  • 非营利组织
  • 安全
  • 小企业
  • 初创企业

Claude 平台

  • 概述
  • 开发者文档
  • 定价
  • 市场
  • 区域合规
  • Claude on AWS
  • Google Cloud’s Vertex AI
  • Microsoft Foundry
  • 控制台登录

资源

  • 博客
  • Claude 合作伙伴网络
  • 社区
  • 连接器
  • 课程
  • 客户案例
  • Anthropic 的工程团队
  • 活动
  • 深入了解 Claude Code
  • 深入了解 Claude Cowork
  • 深入了解 Claude 企业版
  • 深入了解 Claude 安全版
  • 插件
  • 由 Claude 提供支持
  • 服务合作伙伴
  • 教程
  • 用例

帮助与安全

  • 可用地区
  • 状态
  • 支持中心

公司

  • Anthropic
  • 职业机会
  • 政策
  • 经济未来
  • 研究
  • 新闻
  • Claude 的宪法
  • Claude 军团
  • AI 指数增长政策
  • 负责任的扩展政策
  • 安全与合规
  • 透明度

条款与政策

  • 隐私政策
  • 消费者健康数据隐私政策
  • 负责任的披露政策
  • 商业服务条款
  • 消费者服务条款
  • 使用政策
http://www.jsqmd.com/news/1054291/

相关文章:

  • 如何彻底清理显卡驱动残留:DDU工具三步解决驱动冲突难题
  • 东莞市闲置黄金变现多少钱?本地5家回收门店最新报价参考 - 千叶啊
  • 怎样深度掌控AMD Ryzen处理器:专业开源调试工具实战指南
  • ChatGPT不是新软件,而是你该重建的对话式工作习惯
  • GPT-5.5五大变现场景:外贸翻译、音乐分轨、养老短信等实操指南
  • 漯河市黄金回收多少钱一克?本地实体门店回收价格对比整理 - 开始就结束
  • PIC18单片机DMA配置实战:从ADC采样到UART通信的高效数据搬运
  • 嵌入式GUI开发实战:emWin FRAMEWIN控件详解与应用指南
  • 恩施土家族苗族自治州闲置黄金变现多少钱?本地5家回收门店最新报价参考 - 千叶啊
  • MNIST数据集Python加载与预处理实战指南
  • 2026寿县装修售后没人管?楚都壹号院业主:30分钟响应、30年质保,维修不扯皮 - 装企自媒体训练营辉哥
  • 最佳AI写专著利器,快速为你生成20万字优质专著,性价比超高!
  • 2025年阴阳师自动化脚本终极指南:如何彻底解放双手,轻松管理游戏日常
  • 告别模拟器:安卓真机抓包实战与证书锁定绕过指南
  • GTA5线上小助手:终极免费游戏辅助工具完全指南
  • HC08编程器通信故障排查:从硬件连接到软件配置的完整指南
  • SDXL LoRA微调实战指南:轻量高效风格定制方法
  • 基于确定性上下文无关语言的智能体安全通信协议CBCL设计与实现
  • GeoDe:基于几何去噪缓解大模型幻觉,提升本地部署LLM可靠性
  • 惠州市黄金回收去哪儿好?整理了5家靠谱实体店地址电话 - 千叶啊
  • 东营市黄金回收猫腻多怎么办?整理了5家诚信回收店供参考 - 千叶啊
  • 大模型认知健康评估:面向生产环境的LLM降智检测与干预指南
  • JMeter性能测试实战:从线程组配置到分布式压测的5大避坑指南
  • 江门市黄金首饰回收正规门店推荐,附各区回收网点联系方式 - 千叶啊
  • NSK DFT2810-2.5 高刚性双螺母滚珠丝杠技术解析
  • 率失真感知权衡与同义变分推理:下一代AI压缩与生成的核心理论
  • 范畴论视角下的软件架构:拓扑、赋值与转移的统一模型
  • Ubuntu 13.10 下 Hadoop 2.7.7 源码编译与伪分布式部署实战
  • SAT-CTS算法:用贝叶斯赌博机解决波束赋形中的组合优化难题
  • 信息物理系统韧性设计:从动态安全验证到人机协同恢复