当前位置: 首页 > news >正文

100 万token!Anthropic 重磅发布 Claude Opus 4.6,成功登顶编程王座

Anthropic 毫无预警地发布了Claude Opus 4.6。说实话,这半年被各种“遥遥领先”的模型轰炸得有点审美疲劳,本来想关灯睡觉,但扫了一眼官方的 Changelog,我直接垂死病中惊坐起——这货居然支持 100 万 token 上下文了?而且还会自己改 Bug?

1. 它终于学会了“像人一样思考”

以前我们用 AI 写代码,最烦的是什么?是它写了一段看着很完美的代码,一运行全是红字,然后你把报错扔回去,它就开始瞎蒙,越改越错。

Opus 4.6 最让我惊喜的一点是它的自省能力

官方文档里提到它在“Terminal-Bench 2.0”里拿了最高分,还在那个听起来很吓人的“人类最后的考试(Humanity's Last Exam)”里碾压了对手。但数据是冰冷的,真实的体感是:它变稳了。

Opus 4.6 还能将其增强的功能应用于一系列日常工作任务:运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。在Cowork 环境中,Claude 可以自主地执行多任务,Opus 4.6 可以代表用户运用所有这些技能。

Opus 4.6 在多个专业领域的实际工作任务中都达到了最先进的水平

该模型在多项评估中均表现出色,堪称业界领先。例如,它在智能体编码评估工具Terminal-Bench 2.0中取得了最高分,并在“人类最后的考试”(一项复杂的多学科推理测试)中领先于所有其他前沿模型。

在GDPval-AA(一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试)中, Opus 4.6 的表现比业界次优模型(OpenAI 的 GPT-5.2)高出约 144 个 Elo 分数,比其前身(Claude Opus 4.5)高出 190 分。此外,Opus 4.6 在BrowseComp 测试中也优于其他所有模型,该测试用于衡量模型在线查找难寻信息的能力。

我在 Claude Code 里丢给它一个很恶心的遗留代码重构任务。以前的模型可能直接就上手改,改完崩了算我的。但 Opus 4.6 并没有急着输出代码,而是先规划。它列出了几个可能踩坑的点,甚至在运行过程中,它自己发现了逻辑漏洞,然后自己修好了

这种“自我纠错”的感觉,太像一个靠谱的高级工程师坐在你旁边结对编程了。它不再是一个单纯的“代码生成器”,更像是一个能帮你兜底的 Partner。

Opus 4.6 擅长诊断复杂的软件故障

2. 100 万 Token 上下文:告别“金鱼记忆”

咱们做开发的都有个痛点叫“Context Rot”(上下文腐烂)。聊着聊着,AI 就忘了十分钟前我们定义的变量,或者在处理长文档时开始胡言乱语。

这次 Opus 4.6 直接上了100 万 Token 的上下文窗口(虽然是测试版)。这是什么概念?你可以把几本技术书、整个项目的文档、甚至几万行的屎山代码一次性扔给它。

Opus 4.6 在长上下文检索方面表现出显著的改进

官方对比数据里,那个“大海捞针”测试(MRCR v2),前代 Sonnet 4.5 得分只有 18.5%,而 Opus 4.6 飙到了76%

我自己试着扔了一份超长的 API 文档进去让它查一个冷门参数,它不仅找出来了,还关联了上下文告诉我这玩意儿在这个版本里有坑。说真的,以前那种“还得我自己先读一遍文档再喂给 AI”的憋屈日子,可能真要结束了。

3. 给打工人的“真·福利”:Excel 和 PPT

虽然咱们是写代码的,但谁还没个被老板逼着写 PPT、做报表的时候?

Opus 4.6 这次不仅是程序员的福音,也是“打工人的神”。它对 Excel 进行了史诗级升级,还搞了个 PowerPoint 的预览版。

这就很有意思了。想象一下,你把一堆乱七八糟的财务数据扔给它,说:“帮我分析下上个季度的亏损原因,并做个 PPT,我要向老板汇报。” 然后它就开始自主执行多任务(Multitasking),一边跑分析,一边画图表,最后还给你生成了幻灯片。

在 Cowork 环境下,它甚至能代表你操作这些工具。这不就是我梦寐以求的“硅基实习生”吗?

4. 丰俭由人:学会了“偷懒”的 AI 才是好 AI

这次 API 的更新里,有个功能我觉得特别人性化:Adaptive Thinking(自适应思维)

以前调用模型,要么全速跑,要么强制它深度思考,很死板。现在 Opus 4.6 学聪明了,它会根据上下文判断:这个问题很简单,我就秒回;这个问题很复杂,我要开启“扩展思维”好好琢磨一下。

而且,开发者终于可以控制Workload(工作量)了!你可以选低、中、高、最高四档。想省钱的时候开低档,遇到硬骨头开最高档。

这就很像真实的职场:不是所有任务都需要拼命三郎,懂得分配精力的 AI,反而让我觉得它更懂事了。而且价格没变,加量不加价,这点必须给好评。

5. 安全感:不只是不乱说话

最后聊聊安全。虽然大家都不爱看系统卡(System Card),但我扫了一眼,这次 Anthropic 确实下了功夫。

Opus 4.6 在网络安全防御上很强,甚至能用来帮咱们修开源软件的漏洞。官方说它的“过度拒绝率”是最低的——意思是,它不会动不动就因为误判而拒绝回答你的正常问题(这在以前真的很搞心态)。它在保持安全的同时,更听话了。

写在最后

现在的 AI 圈,每隔几个月就是一次“工业革命”。但说实话,作为用户,我关心的不是你在榜单上比 GPT-5.2 高了多少分(虽然这次 Opus 4.6 确实高了 144 分,挺夸张的),我关心的是:你能不能让我早点下班?

从 Opus 4.6 身上,我看到了一种趋势:AI 正在从“工具”向“队友”转变。它开始有记忆、有判断力、懂得自我反思,甚至懂得帮你省钱。

更多transformer,VIT,swin tranformer 参考头条号:人工智能研究所 v号:人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

http://www.jsqmd.com/news/354592/

相关文章:

  • 2026年PVC泄水管加工厂服务好的推荐有哪些 - 工业品网
  • 探寻二氢槲皮素品牌,哪家口碑好又性价比高 - myqiye
  • ops-cv NMS后处理硬件排序单元调用与阈值优化实战
  • 2026年耐用型桥梁PVC排水管口碑品牌推荐,快来了解 - 工业品牌热点
  • 北京加急就医|守嘉陪诊速约,急病不耽误,高效又省心 - 品牌排行榜单
  • 二氢槲皮素品牌推荐哪家,润葆国肽二氢槲皮素符合需求吗 - mypinpai
  • ops-transformer RoPE位置编码 复数旋转硬件加速实战
  • 聊聊PVC排水管实力供应商,江苏靠谱的厂家费用多少钱 - 工业推荐榜
  • 深入解析:Blender微细节纹理材质模型资产包 Micro-Details Premium Asset Pack
  • 聊聊山东专业的GEO优化公司机构,服务区域覆盖济南河南河北 - 工业设备
  • 【金融项目实战】10_接口测试 _接口Mock测试的作用
  • 2025年OE SCI2区TOP,面向复杂三维海上风电海域救援的多无人机协同路径规划,深度解析+性能实测
  • 2026年DeepSeek写论文AI痕迹太明显?一键去AIGC痕迹实测 - 我要发一区
  • 探寻桥梁PVC排水管优质厂家,广东地区哪家值得选 - 工业品牌热点
  • 2026年长白山亲子酒店推荐:通过设施实测与服务质量评测,解决空间局促与活动匮乏问题 - 品牌推荐
  • 2026年浙江口碑好的桥梁带检查口PVC排水管服务商排名 - 工业品网
  • 2026年比较好的预制钢结构工程/预制钢结构定制厂家选购指南与推荐 - 行业平台推荐
  • 计算机毕业设计springboot电竞酒店信息管理系统 基于SpringBoot的电竞主题酒店运营服务平台 SpringBoot框架下智能电竞住宿预订与管理系统
  • 2026年口碑好的大棚PE布/防寒PE布厂家推荐及采购指南 - 行业平台推荐
  • 计算机毕业设计springboot书海拾梦 墨香书苑 —— 基于SpringBoot的在线图书阅读与推荐平台 阅界云书 —— 智能图书推荐与文学交流社区
  • 2026年论文AIGC痕迹怎么消除?实测5款工具后选了这2个 - 我要发一区
  • 2026年2月宝宝鞋品牌推荐榜单:基于用户口碑与专业测评的深度解析 - 品牌推荐
  • 2026年长白山亲子酒店推荐:家庭度假全维度横向排名,直击服务细节与性价比平衡痛点 - 品牌推荐
  • 小模型是AI Agent的未来 - 详解
  • 2026年靠谱的进口报关行/货物进口报关用户信赖品牌 - 行业平台推荐
  • 2026年热门的pp防草布/抗老化防草布厂家推荐及选择指南 - 行业平台推荐
  • 2026护眼大路灯品牌精选:总有一款适配你的需求 - 速递信息
  • 2026年比较好的技术研发楼工程总承包/电子厂房工程总承包专业推荐 - 行业平台推荐
  • 2026年新疆干果生产企业权威榜单:全产业链品质领航者谁最强? - 界川
  • 2026年靠谱的对辊破碎机/山西制砂破碎机厂家推荐及选择参考 - 行业平台推荐