当前位置: 首页 > news >正文

Claude Opus 4.6 发布:Agent 能力暴涨,上下文窗口翻五倍!

Claude 本次共发布了两个更新:

  1. 模型层面从原先的 Opus4.5 升级到了 Opus4.6,相关指标有显著提升!

  2. Claude Code 的升级,新增了 agent-teams 的功能!

/ 先看模型升级 /

opuspingfeng

上述 Opus4.6 模型最新的评分当中,相比于上一代 Opus4.5 有显著提升的指标分别是:

  1. Agentic terminal coding(Terminal-Bench 2.0):该指标是评估 AI 在终端编程环境中自主解决问题能力的评分,主要考察复杂指令解析、环境交互和工作流自动化三大能力。Opus 4.6 是 65.4%,相比于 Opus4.5 59.8% 有相应提升。

  2. Agentic computer use(OSWorld): 是评估 AI 在真实操作系统中自主完成任务的能力,Opus 4.6 拿了 72.7%,比 Opus 4.5 的 66.3% 有明显提升。

这意味着 Claude 通过图形界面或命令行与电脑交互,解决实际问题的能力明显提高,未来操作系统就是 Claude 的基本操作工具,全面 Agent 化有了非常大的可能。

  1. Agentic search(BrowserComp) :是测试 AI 在浏览器环境中自主搜索、筛选和整合信息的能力,比如根据模糊指令找到准确答案,或者对比多个网页内容,进行复杂信息的整合能力。Opus 4.6 是 84.0%,相比于与 Opus4.5 的 67.8 有较高提升。

  2. Novel problem-solving(ARC AGI 2):是评估 AI 解决全新、未见过的复杂问题的能力,比如逻辑推理、数学证明或抽象概念理解,它测试的是 AI 能否像人类一样,通过已有知识灵活组合,找到创新解法。

简单来说,该指标的提升意味着 AI 未来陪你一起“开脑洞”的能力更强了,创新能力找 AI 也没有任何问题。

该指标从原本的 37.6% 升高到了 68.8% ,提升显著!

Opus4.6 支持 1M Token 的上下文窗口

opus2

除了上述模型指标有较高提示外,原本的 Opus4.5 上下文窗口是支持 200K,本次直接升级到了 1M,足足翻了五倍!

上下文窗口对于 AI Coding 是有非常重要的含义,上下文不足容易导致 AI Coding 质量下降,本次直接升级到 1M 上下文窗口,AI Coding 开发者的福音!

Claude Code 升级

本次 Claude Code 升级了 agent-teams 的功能。

以前,我们想让 Claude Code 并行跑多个任务的时候,比较简陋的做法是,每次都打开一个新的 CLI 终端,然后 Claude Code 在不同的终端进行执行。

再或者就是直接采用 sub agent,但 sub agent 的问题是,这些程序在单一会话内运行,只能向主代理汇报。

而本次更新的 agent teams 功能,则是各个 Agent 队友各自独立工作,各自在自己的上下文窗口中,并直接相互沟通!

是的,并不是各个 Agent 向主代理汇报,而是各个 Agent 在自己的上下文窗口中,独自运行,且各个 Agent 之间可以直接沟通,互相协作!完全并行!

不过,由于该功能还是一个实验功能,所以默认在 Claude Code 中是被禁用的,我们可以直接调整 Claude Code 的 setting.json 配置来开启它:

{"env": {"CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1"}
}

开启该配置后,多个Claude Code实例之间进行团队协作,共享任务的能力将大大加强!

Claude 团队针对 Claude Code 并行处理能力也单独录制了一部视频,感兴趣的可以直接在这里查看:

https://www.youtube.com/watch?v=vNeIQS9GsZ8

除此之外,关于Agent teams 能力的详细说明,也可以查看 Claude 官网的最新更新,文档地址是:

https://code.claude.com/docs/en/agent-teams

今年极大可能是Agent 的元年,无论是前段时间爆火的OpenClaw,还是最近 Claude 和 GPT 的模型更新,都直指模型Agent能力的提升,无论是写代码,操作浏览器,还是控制操作系统,模型现在都有了较大升级!

跟上节奏!还没用过 Claude Code 今年一定要体验一下!这是入局的最好时机!

入局早了你会觉得 Claude Code 垃圾,入局晚了你会跟不上 Claude Code 的节奏,现在入局正当时。💪

欢迎日常交流

AI 驱动团队开发是这个时代的新命题,欢迎大家加微信互相交流心得。

👉 想要进群的朋友,扫码时备注 “AI实验群”,看到消息后会第一时间拉你进群。

群定位:AI工具提效/实战经验互助

群规则:不水群、不广告、干货优先

欢迎访问该链接获取群信息:https://zhaozhihao.com/archives/KRMxDLo4

好文章值得被更多人看见!既然看到这里了,随手点个赞👍和关注,并转发给更多的朋友吧!感谢。

作者:贾克斯的平行世界、V:x_h886688


原文地址:Claude Opus 4.6 发布:Agent 能力暴涨,上下文窗口翻五倍!

http://www.jsqmd.com/news/348750/

相关文章:

  • 2026年热门的食堂外包托管/食堂外包团餐合作反馈推荐 - 品牌宣传支持者
  • Laravel AI SDK 正式发布
  • 方达炬〖发明未知种品〗:著作权技术信息著作指数
  • 2026年靠谱的广东净味进口涂料/德国进口涂料品牌厂商推荐(更新) - 品牌宣传支持者
  • 实用指南:借助开源模型增强OCR处理流程
  • 2026年质量好的优质环保涂料/艺术环保涂料品牌厂家推荐 - 品牌宣传支持者
  • 2026年口碑好的速冻免浆黑鱼片/速冻黑鱼片实力商家推荐 - 品牌宣传支持者
  • 2026年比较好的打孔雕刻工具/手工DIY雕刻工具行业内知名厂家推荐 - 品牌宣传支持者
  • WTF?XinServer 的项目备份方案是否适合生产环境?
  • 『NAS』在飞牛部署一个红白喜事电子礼簿-GiftBook
  • 2026年靠谱的阳光护栏/隔离护栏厂家采购参考指南(必看) - 品牌宣传支持者
  • 2026年质量好的液压缓冲阻尼铰链/橱柜门缓冲阻尼铰链厂家质量参考评选 - 品牌宣传支持者
  • Linux命令-lpadmin(配置CUPS套件中的打印机和类)
  • 实用指南:TensorFlow 1.x常用函数总结(持续更新)
  • Linux命令-lpc(管理打印任务的命令行工具)
  • include_directories和target_include_directories说明
  • 互联网大厂Java面试:从Spring Cloud到分布式事务的技术场景探索
  • 2026年评价高的抽屉式厨房拉篮/调味篮厨房拉篮值得信赖厂家推荐(精选) - 品牌宣传支持者
  • 2026年靠谱的反弹器/磁吸反弹器厂家选择参考建议 - 品牌宣传支持者
  • 2026年口碑好的沥水篮厨房水槽/大单槽厨房水槽优质供应商推荐参考 - 品牌宣传支持者
  • DeepSeek OCR深度阅读报告:像素优先的AI输入架构革命
  • 2026年评价高的运动面料/功能性面料厂家用户好评推荐 - 品牌宣传支持者
  • 超越原型:构建面向生产的Streamlit API化应用架构
  • 【系统性总结】Anthropic Engineering Blog完整知识体系构建
  • [2026-01-20] Anthropic —— Security First
  • 05-11 剩余文章快速深度分析汇总
  • 2026年靠谱的福乐斯保温板/福乐斯橡塑保温板推荐参考汇 - 品牌宣传支持者
  • 04 Writing effective tools for agents - 工具设计的系统性方法论
  • [2025-01-01] # MCP工具能力清单
  • 02 Effective context engineering for AI agents - 上下文工程的系统性方法论