当前位置：首页 > news >正文

项目 Fetch 第二阶段：Claude Opus 4.7 完成任务速度比人类团队快 20 倍！

news 2026/6/21 10:43:17

项目 Fetch 第二阶段：Claude Opus 4.7 完成任务速度比人类团队快 20 倍！

2026 年 6 月 18 日，作者 Michael Ilie、C. Daniel Freeman 和 Kevin K. Troy 发布了项目 Fetch 第二阶段的相关情况。

2025 年 8 月，他们进行了一项实验，探究 Claude 能在多大程度上帮助非机器人专家的 Anthropic 员工，使用现成的四足机器人（机器狗）完成复杂且有趣的任务，此项目命名为“项目 Fetch”。结果显示，使用当时最先进的模型 Claude Opus 4.1 的团队，表现明显优于只能依靠互联网和自身智慧的团队，借助 Claude 的团队完成的任务更多，速度也更快。

在把同事们拉到仓库进行实验之前，他们先确认了 Opus 4.1 是否能独立完成这些任务，答案是否定的，它在连接机器人这一前期任务上就遇到了困难，和没使用 Claude 的团队一样。

不过，AI 模型发展速度极快。他们认为是时候重新审视项目 Fetch 了，看看新一代模型是否能超越上一代。结果是，Claude Opus 4.7 在无人协助的情况下，完成参与者不到一年前完成的所有任务的速度，比最快的人类团队快了约 20 倍。

但这并不意味着大语言模型（LLM）已经解决了机器人技术的所有问题。最新的 Claude 模型在使用机器人精确移动沙滩球（项目 Fetch 中的“取物”环节）时仍面临挑战，且这些实验中的任务都未涉及机器人控制中更具挑战性的底层元素，比如制定特定的驱动策略。然而，他们再次看到一种模式：首先，模型对人类有帮助；接着，人类对模型有帮助；最后，模型基本能够独立完成任务。这种模式在网络安全领域已被见证，如今在 AI 与现实世界的交叉领域，同样的趋势也开始显现。

我们做了什么？

最初的项目 Fetch 要求 Anthropic 员工组成团队（随机分配是否使用 Claude）完成以下步骤：使用制造商提供的控制器操作机器狗，连接机器狗的视频和激光雷达传感器，编写并运行手动控制机器狗的程序，开发监测机器狗空间路径的方法，编写检测沙滩球的程序，最后将所有步骤整合起来，实现自动取球。

在这次自动更新实验中，没让 Claude 使用物理控制器，也没评估研究人员使用 Claude 编程的控制器取球所需的时间（不过确认了其按预期工作）。对于其余任务，使用 Claude Code 中的自适应思维，将努力程度设置为最大，对 Opus 4.7 进行了三次试验。测量了每个目标的耗时，并对模型的成功率进行了定性评估。

研究人员的工作仅限于将运行 Claude Code 的笔记本电脑连接到机器狗，输入初始提示，批准命令，以及批准模型进入下一个任务。

Claude 在哪方面表现出色？

简单来说，在 8 月至少有一个人类团队完成的所有任务中，Opus 4.7 完成相同任务的速度至少快了 10 倍。如果考虑两个人类团队都完成的四项任务，Opus 4.7 的平均速度比未使用 Claude 的团队快 37 倍以上，比使用 Claude 的团队快 18 倍以上。

该表格比较了原团队（使用 Claude 的团队和未使用 Claude 的团队）与 Opus 4.7 在第二阶段所有测试任务中的速度。

人类在选择与机器狗传感器交互的不同方法时遇到了困难，而 Opus 4.7 能够迅速确定最佳路径。它编写的大部分代码第一次运行就有效（在最初的实验中，使用 Claude 的团队和未使用 Claude 的团队并非如此）。实际上，从 Opus 4.7 生成的代码量也能看出其效率：它比两个人类团队都更成功，而生成的代码量几乎比使用 Claude 的团队少了 10 倍。

Opus 4.7 并非完美无缺。例如，它默认使用了过时的目标检测算法。但即便如此，它仍能找到解决办法并得出有效的解决方案。

他们发现，模型完成步骤的耗时（绝对值）在任务内的差异很小。（不过，前面提到的次优算法选择可能是导致其中一次沙滩球检测试验比其他试验耗时长得多的原因。）总体而言，对于本次实验中其能力范围内的任务，Claude 现在已经相当可靠。（下一节将分析 Claude 仍无法完成的任务。）

值得强调的是（就像他们在上一篇文章中所做的那样），这一进展并非是为提高模型的机器人技术能力而刻意努力的结果。与大语言模型发展史上的许多其他进步一样，这些改进源于更广泛的模型扩展。

Claude 在哪方面遇到了困难？

经过一些练习，人类可以用手操控机器狗，轻轻地将沙滩球推回机器人出发的基地（一片人造草坪）。这需要能够迅速感知球是否偏离了路线，该误差与之前的指令有何关联，球现在的位置，以及如何调整后续输入以更精确地移动球。这是一种人类擅长的闭环控制（至少在犯了一些错误并从中学习之后）。

在第二阶段的实验中，Claude 难以把握这种微妙的控制。就像那些需要编写自动取球程序的人类一样，Claude 能够让机器人移动到球的后面，并将其定位以将球撞回起点。但这些操作的控制效果不佳，而且（和人类参与者一样）没有成功。

一位比第一阶段志愿者更有机器人技术经验的研究人员成功完成了编写自动取球程序的任务。他们认为，假以时日并提供更多支持，当前版本的 Claude 很有可能做到同样的事情。不过，他们接下来关注的是，模型能否以在项目 Fetch 其他任务中展现出的速度和可靠性完成这一最终任务。

这意味着什么？

在撰写第一阶段的报告时，他们强调了大语言模型如何为需要使用机器人的非专家人类提供帮助。现在，这种帮助比以往更加显著。模型现在能够更快地独立完成以前需要人类和模型协同编程的工作，这意味着人们可以更快地过渡到控制和使用机器人。而且，对于某些任务，人类在控制机器人方面可能仍然比手握虚拟操作杆的 AI 模型更出色。

有趣且不同的是，他们似乎正越来越接近一个模型能够相对轻松地使用现成物理工具的世界——至少在有限的用途上是如此。这类似于 AI 模型在向更具自主性的编码过渡时，使用现有的软件编辑工具（如字符串替换）。他们可能正进入“物理”自主 AI 的早期阶段。

要了解模型使这些物理工具更加定制化的能力，还需要进行更多研究，比如编写针对特定任务的控制策略或设计机器人系统。而且，要实现这种更广泛的、具备物理能力和适应性的语言模型愿景，可能会面临重大障碍。但正如他们所见，模型能力看似巨大的差距可以迅速缩小。不久前，模型自己构建软件工具似乎还很荒谬，但现在这正在成为现实。因此，他们不应排除在硬件领域出现同样发展轨迹的可能性。

更新于 6 月 18 日：修正了项目 Fetch 第一阶段的日期。