当前位置：首页 > news >正文

技术速递｜GitHub Copilot CLI 结合多模型能力提供“第二视角”

news 2026/4/19 0:08:28

作者：Nick McKenna & Bartek Perz
排版：Alan Wang
了解 Rubber Duck 如何为 GitHub Copilot CLI 带来不同的思路与视角。

当你让一个编码智能体构建数据管道时，它未必会采用最优结构。但如果在执行方案之前，让它先获得“第二视角”呢？

今天，在 GitHub Copilot CLI 中，我们以实验模式引入Rubber Duck。它利用来自不同 AI 模型家族的第二个模型，作为独立评审者，在关键时刻对智能体的计划与执行进行评估与反馈。

为了捕捉不同类型的错误，引入不同视角至关重要。我们的评估显示，Claude Sonnet + Rubber Duck 能弥补 Sonnet 与 Opus 之间 74.7% 的性能差距，在处理复杂的多文件、长流程任务时表现更佳。你可以通过在 Copilot CLI 中使用/experimental来启用 Rubber Duck 及其他实验特性。

问题：自信的错误会被不断放大

当前的编码智能体通常遵循一个清晰的循环：分析任务 → 制定计划 → 实现 → 测试 → 迭代。这一流程强大且高效，但也存在盲点。早期（尤其是规划阶段）的决策，会成为后续所有工作的基础。一旦存在假设偏差或效率问题，就会逐步演变为依赖，等你发现时，往往已经不只是修复一个小错误那么简单。

运用自我反思机制，让智能体在推进任务前先审视自身的输出内容，是一种经过验证的有效方法。然而，模型对自身工作成果进行审核时，仍会受限于其自身的训练偏差：相同的数据来源、相同的训练方法，也意味着相同的盲点仍然存在。

Rubber Duck：引入第二种视角

Rubber Duck 是一个专注于评审的智能体，由与你当前 Copilot 会话“互补”的模型驱动。例如，当你选择 Claude 作为主调度模型时，Rubber Duck 会使用 GPT-5.4。在我们对 Rubber Duck 进行试验的同时，也在为编排器和 Rubber Duck 本身探索其他模型系列。Rubber Duck 的职责是核查主智能体的工作，并输出一份简短且高价值的问题清单，包括：

主智能体可能忽略的细节
值得质疑的假设
需要考虑的边界情况

何时跨模型评审最有效？

我们在开源代码库中选取了规模庞大、难度较高且源自真实场景的编程问题，构建了 SWE-Bench Pro 基准测试集，并基于该数据集对 Rubber Duck 进行了评估。结果如下：

Claude Sonnet 4.6 搭配运行 GPT-5.4 的 Rubber Duck，其解决率接近单独运行的 Claude Opus 4.6，填补了 Sonnet 与 Opus 之间 74.7% 的性能差距。

我们发现，Rubber Duck 在处理复杂难题时助力更为显著，这类问题涉及 3 个以上文件，通常需要 70 个以上步骤才能解决。在这类问题上，Sonnet 搭配 Rubber Duck 的表现比 Sonnet 基准模型高出 3.8%；而在三次测试中筛选出的最难问题上，这一优势提升至 4.8%。以下是 Rubber Duck 所发现问题的几个示例：

架构问题（OpenLibrary / 异步调度器）：Rubber Duck 发现所设计的调度器在启动后会立即退出，导致没有任何任务被执行；即便修复该问题，其中一个被调度的任务本身也是一个无限循环。
**单行代码引发的严重漏洞（OpenLibrary / Solr）**Rubber Duck 发现一个循环在每次迭代时都会悄无声息地覆盖同一个dict键，导致四个 Solr 分面类别中有三个在每次搜索查询中被丢弃，且没有任何错误提示。
跨文件冲突（NodeBB / 邮件确认）：Rubber Duck 发现有三个文件都在读取同一个 Redis 键，而新代码已经不再向该键写入数据，导致确认界面和清理流程在部署后会悄然失效。