当前位置：首页 > news >正文

100 万token！Anthropic 重磅发布 Claude Opus 4.6，成功登顶编程王座

news 2026/3/27 11:11:20

Anthropic 毫无预警地发布了Claude Opus 4.6。说实话，这半年被各种“遥遥领先”的模型轰炸得有点审美疲劳，本来想关灯睡觉，但扫了一眼官方的 Changelog，我直接垂死病中惊坐起——这货居然支持 100 万 token 上下文了？而且还会自己改 Bug？

1. 它终于学会了“像人一样思考”

以前我们用 AI 写代码，最烦的是什么？是它写了一段看着很完美的代码，一运行全是红字，然后你把报错扔回去，它就开始瞎蒙，越改越错。

Opus 4.6 最让我惊喜的一点是它的自省能力。

官方文档里提到它在“Terminal-Bench 2.0”里拿了最高分，还在那个听起来很吓人的“人类最后的考试（Humanity's Last Exam）”里碾压了对手。但数据是冰冷的，真实的体感是：它变稳了。

Opus 4.6 还能将其增强的功能应用于一系列日常工作任务：运行财务分析、进行研究以及使用和创建文档、电子表格和演示文稿。在Cowork 环境中，Claude 可以自主地执行多任务，Opus 4.6 可以代表用户运用所有这些技能。

Opus 4.6 在多个专业领域的实际工作任务中都达到了最先进的水平

该模型在多项评估中均表现出色，堪称业界领先。例如，它在智能体编码评估工具Terminal-Bench 2.0中取得了最高分，并在“人类最后的考试”（一项复杂的多学科推理测试）中领先于所有其他前沿模型。

在GDPval-AA（一项评估模型在金融、法律和其他领域中具有经济价值的知识工作任务上的表现的测试）中， Opus 4.6 的表现比业界次优模型（OpenAI 的 GPT-5.2）高出约 144 个 Elo 分数，比其前身（Claude Opus 4.5）高出 190 分。此外，Opus 4.6 在BrowseComp 测试中也优于其他所有模型，该测试用于衡量模型在线查找难寻信息的能力。

我在 Claude Code 里丢给它一个很恶心的遗留代码重构任务。以前的模型可能直接就上手改，改完崩了算我的。但 Opus 4.6 并没有急着输出代码，而是先规划。它列出了几个可能踩坑的点，甚至在运行过程中，它自己发现了逻辑漏洞，然后自己修好了。

这种“自我纠错”的感觉，太像一个靠谱的高级工程师坐在你旁边结对编程了。它不再是一个单纯的“代码生成器”，更像是一个能帮你兜底的 Partner。

Opus 4.6 擅长诊断复杂的软件故障

2. 100 万 Token 上下文：告别“金鱼记忆”

咱们做开发的都有个痛点叫“Context Rot”（上下文腐烂）。聊着聊着，AI 就忘了十分钟前我们定义的变量，或者在处理长文档时开始胡言乱语。

这次 Opus 4.6 直接上了100 万 Token 的上下文窗口（虽然是测试版）。这是什么概念？你可以把几本技术书、整个项目的文档、甚至几万行的屎山代码一次性扔给它。

Opus 4.6 在长上下文检索方面表现出显著的改进

官方对比数据里，那个“大海捞针”测试（MRCR v2），前代 Sonnet 4.5 得分只有 18.5%，而 Opus 4.6 飙到了76%。

我自己试着扔了一份超长的 API 文档进去让它查一个冷门参数，它不仅找出来了，还关联了上下文告诉我这玩意儿在这个版本里有坑。说真的，以前那种“还得我自己先读一遍文档再喂给 AI”的憋屈日子，可能真要结束了。

3. 给打工人的“真·福利”：Excel 和 PPT

虽然咱们是写代码的，但谁还没个被老板逼着写 PPT、做报表的时候？

Opus 4.6 这次不仅是程序员的福音，也是“打工人的神”。它对 Excel 进行了史诗级升级，还搞了个 PowerPoint 的预览版。

这就很有意思了。想象一下，你把一堆乱七八糟的财务数据扔给它，说：“帮我分析下上个季度的亏损原因，并做个 PPT，我要向老板汇报。” 然后它就开始自主执行多任务（Multitasking），一边跑分析，一边画图表，最后还给你生成了幻灯片。

在 Cowork 环境下，它甚至能代表你操作这些工具。这不就是我梦寐以求的“硅基实习生”吗？

4. 丰俭由人：学会了“偷懒”的 AI 才是好 AI

这次 API 的更新里，有个功能我觉得特别人性化：Adaptive Thinking（自适应思维）。

以前调用模型，要么全速跑，要么强制它深度思考，很死板。现在 Opus 4.6 学聪明了，它会根据上下文判断：这个问题很简单，我就秒回；这个问题很复杂，我要开启“扩展思维”好好琢磨一下。

而且，开发者终于可以控制Workload（工作量）了！你可以选低、中、高、最高四档。想省钱的时候开低档，遇到硬骨头开最高档。

这就很像真实的职场：不是所有任务都需要拼命三郎，懂得分配精力的 AI，反而让我觉得它更懂事了。而且价格没变，加量不加价，这点必须给好评。

5. 安全感：不只是不乱说话

最后聊聊安全。虽然大家都不爱看系统卡（System Card），但我扫了一眼，这次 Anthropic 确实下了功夫。

Opus 4.6 在网络安全防御上很强，甚至能用来帮咱们修开源软件的漏洞。官方说它的“过度拒绝率”是最低的——意思是，它不会动不动就因为误判而拒绝回答你的正常问题（这在以前真的很搞心态）。它在保持安全的同时，更听话了。

写在最后

现在的 AI 圈，每隔几个月就是一次“工业革命”。但说实话，作为用户，我关心的不是你在榜单上比 GPT-5.2 高了多少分（虽然这次 Opus 4.6 确实高了 144 分，挺夸张的），我关心的是：你能不能让我早点下班？

从 Opus 4.6 身上，我看到了一种趋势：AI 正在从“工具”向“队友”转变。它开始有记忆、有判断力、懂得自我反思，甚至懂得帮你省钱。

更多transformer，VIT，swin tranformer 参考头条号：人工智能研究所 v号：人工智能研究Suo, 启示AI科技

动画详解transformer 在线视频教程

查看全文

http://www.jsqmd.com/news/354592/

2026年PVC泄水管加工厂服务好的推荐有哪些 - 工业品网

探寻二氢槲皮素品牌，哪家口碑好又性价比高 - myqiye

ops-cv NMS后处理硬件排序单元调用与阈值优化实战

2026年耐用型桥梁PVC排水管口碑品牌推荐，快来了解 - 工业品牌热点

北京加急就医｜守嘉陪诊速约，急病不耽误，高效又省心 - 品牌排行榜单

二氢槲皮素品牌推荐哪家，润葆国肽二氢槲皮素符合需求吗 - mypinpai

ops-transformer RoPE位置编码复数旋转硬件加速实战

聊聊PVC排水管实力供应商，江苏靠谱的厂家费用多少钱 - 工业推荐榜

深入解析：Blender微细节纹理材质模型资产包 Micro-Details Premium Asset Pack

聊聊山东专业的GEO优化公司机构，服务区域覆盖济南河南河北 - 工业设备

【金融项目实战】10_接口测试 _接口Mock测试的作用

2025年OE SCI2区TOP，面向复杂三维海上风电海域救援的多无人机协同路径规划，深度解析+性能实测

2026年DeepSeek写论文AI痕迹太明显？一键去AIGC痕迹实测 - 我要发一区

探寻桥梁PVC排水管优质厂家，广东地区哪家值得选 - 工业品牌热点

2026年浙江口碑好的桥梁带检查口PVC排水管服务商排名 - 工业品网

2026年比较好的预制钢结构工程/预制钢结构定制厂家选购指南与推荐 - 行业平台推荐

计算机毕业设计springboot电竞酒店信息管理系统基于SpringBoot的电竞主题酒店运营服务平台 SpringBoot框架下智能电竞住宿预订与管理系统

2026年口碑好的大棚PE布/防寒PE布厂家推荐及采购指南 - 行业平台推荐

计算机毕业设计springboot书海拾梦墨香书苑 —— 基于SpringBoot的在线图书阅读与推荐平台阅界云书 —— 智能图书推荐与文学交流社区

2026年论文AIGC痕迹怎么消除？实测5款工具后选了这2个 - 我要发一区

小模型是AI Agent的未来 - 详解

2026年靠谱的进口报关行/货物进口报关用户信赖品牌 - 行业平台推荐

2026年热门的pp防草布/抗老化防草布厂家推荐及选择指南 - 行业平台推荐

2026护眼大路灯品牌精选：总有一款适配你的需求 - 速递信息

2026年比较好的技术研发楼工程总承包/电子厂房工程总承包专业推荐 - 行业平台推荐

2026年新疆干果生产企业权威榜单：全产业链品质领航者谁最强？ - 界川

2026年靠谱的对辊破碎机/山西制砂破碎机厂家推荐及选择参考 - 行业平台推荐