当前位置: 首页 > news >正文

Claude “变笨“之谜揭开:AI 系统的脆弱不在模型,而在 Harness

Claude "变笨"之谜揭开:AI 系统的脆弱不在模型,而在 Harness

引言

过去几周,大量开发者抱怨 Claude 变得"懒惰"、“推理能力下降”、“更容易幻觉”。AMD 的一位高级工程师甚至审计了6,852 个 session 文件、234,000+ tool calls,用硬数据证明 Claude 的推理深度明显下滑。第三方基准测试报告准确率从 83.3% 暴跌到 68.3%,排名从第 2 跌到第 10。

用户把这种现象称为“AI shrinkflation”(AI 缩水)

4月23日,Anthropic 终于发布官方解释:模型权重没有改变,是 “harness”(外围配置)出了问题。

这个事件揭示了一个被忽视的工程真理:

AI 系统的脆弱性往往不在模型本身,而在部署层的各种"优化"尝试。

什么是 Harness?

在 AI 工程中,“harness” 指的是包裹在模型外部的所有配置和基础设施:

  • System prompts(系统提示词)
  • Reasoning effort settings(推理强度设置)
  • Context caching(上下文缓存)
  • Token limits(输出限制)
  • Latency optimizations(延迟优化)
  • Tool invocation patterns(工具调用模式)

模型本身只是"大脑",harness 是"神经系统"——它决定了大脑如何接收信号、如何思考、如何输出结果。

一个看起来合理的 harness optimization,可能悄然牺牲了推理质量。

Claude 事件的三个 Bug

Anthropic 的 post-mortem 披露了三个具体问题:

Bug 1:Reasoning Effort 降低

项目详情
时间3月4日
变更默认 reasoning effort 从high改为medium
原因解决 UI "冻结"问题——用户等待时界面看起来卡住
影响复杂任务推理明显变弱

教训:延迟优化的代价是推理深度。

用户看到界面"卡住",会抱怨体验差。但降低推理强度来"流畅化",本质上是在用智能换速度。这不是用户真正想要的——他们要的是"答案正确",而不是"答案快速但错误"。

Bug 2:Caching Logic Bug

项目详情
时间3月26日
变更新的 caching optimization
原因清理 idle sessions 的 old thinking,节省 memory
Bug本应 1 小时后清理,结果每轮都清理
影响模型丢失"短期记忆",变得重复、遗忘

教训:缓存的边界条件是最容易出错的地方。

代码逻辑:if idle > 1 hour: clear thinking

实际行为:clear thinking on every turn

一个简单的条件判断错误,让 Claude 在每次对话后都"忘记自己在想什么"。这不是模型问题,是 harness bug。

Bug 3:Verbosity Limits

项目详情
时间4月16日
变更System prompt 添加字数限制
要求工具调用间 ≤ 25 词,最终回复 ≤ 100 词
原因减少 Opus 4.7 的 verbosity
影响编码质量下降 3%

教训:prompt 的副作用难以预测。

Anthropic 可能觉得用户抱怨"废话太多",于是加个限制。但这个限制让模型在复杂任务中无法展开思考——该说的话没说完,就被迫压缩。

一个 25 词的限制,可能让模型跳过了关键推理步骤。

为什么 Harness Bug 比 Model Bug 更隐蔽?

Model Bug:容易发现,容易定位

如果模型权重有问题,表现会在所有场景下滑。基准测试会直接反映出来。修复路径清晰:重新训练或调整权重。

Harness Bug:场景依赖,难以复现

Harness 问题通常只在特定场景触发:

  • 长对话 session(caching bug)
  • 复杂推理任务(reasoning effort)
  • 多工具调用任务(verbosity limits)

单一基准测试可能测不到。用户抱怨时,公司可能说"我们没有改动模型",因为确实没改动——但改动的是 harness。

信息不对称:公司知道改了什么,用户不知道

Anthropic 改 reasoning effort 时,用户不知道。他们只感觉"Claude 变笨了"。几周后才有人做系统性审计(Stella Laurenzo 的 6,852 sessions 分析),才有了硬证据。

这个时间差就是信任 gap。

Harness 工程的核心原则

Claude 事件给 AI 工程团队上了重要一课。以下是实操原则:

1️⃣ 每个变更必须 Ablation Test

不要:改了一个 system prompt,直接上线。

  • 设计对照组(旧 prompt vs 新 prompt)
  • 在多个 benchmark 上测试
  • 量化副作用(不只是目标指标)

Anthropic 现在的做法:

“We will now run a broader suite of per-model evaluations and ablations for every system prompt change to isolate the impact of specific instructions.”

2️⃣ Latency Optimization 必须声明代价

改 reasoning effort 从highmedium

  • 好处:UI 不冻结,体验流畅
  • 代价:复杂任务准确率下降

这个代价必须透明声明,让用户选择:

“需要深度推理时,请手动开启 high reasoning effort”

而不是偷偷改成默认值,让用户不明不白承受代价。

3️⃣ Caching Logic 的边界条件必须测试

缓存逻辑的典型 bug 场景:

  • 条件判断错误(每轮清理 vs 闲置后清理)
  • 时间单位错误(秒 vs 分钟)
  • 并发竞争(多个 session 同时触发)

测试必须覆盖:

  • 正常场景(闲置后清理)
  • 边界场景(刚好超过阈值)
  • 异常场景(频繁切换、并发访问)

4️⃣ Prompt Limits 必须评估 Reasoning 代价

字数限制的隐秘代价:

  • 模型可能跳过推理步骤
  • 关键信息可能被压缩丢失
  • 复杂任务可能无法展开

评估方法:

  • 在复杂任务 benchmark 上测试
  • 对比无限制 vs 有限制的推理轨迹
  • 统计"推理步骤完整性"

5️⃣ Dogfooding 必须用 Public Build

Anthropic 的教训:内部员工可能用的是"特殊版本",不体验用户真实感受。

新做法:

“A larger share of internal staff will be required to use the exact public builds of Claude Code to ensure they experience the product as users do.”

如果你自己不用公开发布版本,你就不知道用户在抱怨什么。

一个 Harness 变更 Checklist

每次改动 harness 配置时,问这些问题:

[ ] 这个变更的目标是什么?(降低 latency?减少 verbosity?) [ ] 代价是什么?(推理深度?记忆保留?输出完整性?) [ ] 有对照组测试吗?(旧配置 vs 新配置) [ ] 测试覆盖了哪些场景?(简单任务 vs 复杂任务) [ ] 用户会感知到变化吗?(透明告知 vs 隐藏改动) [ ] 有 rollback 计划吗?(发现问题后如何快速恢复) [ ] Dogfooding 测试了吗?(内部员工用过吗)

如果任何一个答案是"不清楚"或"没有",不要上线。

Claude 事件的深层启示

模型是"引擎",Harness 是"传动系统"

引擎再强,传动系统出问题,车子也跑不好。

Claude Opus 4.6 的模型权重没有变——引擎还是那个引擎。但 harness 的三个 bug 让"传动系统"失灵:

  • 油门踩不到底(reasoning effort)
  • 变速箱每秒换挡(caching bug)
  • 限制排气管流量(verbosity limits)

结果:用户感觉"引擎没力了",但其实是传动系统卡住了。

"优化"的双刃剑

每个 harness optimization 都有理由:

  • 降低 reasoning effort → 解决 UI latency
  • 清理 thinking cache → 节省 memory
  • 限制输出 verbosity → 减少用户阅读负担

但每个 optimization 都有隐秘代价。问题是:

  • 代价是否被量化?
  • 代价是否被透明告知?
  • 代价是否被充分测试?

Claude 事件的教训:没有量化测试的 optimization,是危险的 optimization。

用户信任比功能指标更重要

Anthropic 的 post-mortem 开头就说:

“We take reports about degradation very seriously.”

为什么?因为用户信任一旦破裂,修复极难。

几周的"变笨"投诉,让用户质疑:

  • Anthropic 是否在偷偷 nerfing?
  • 是否在用低质量服务骗订阅费?
  • benchmark 数据是否可信?

即使最终解释了"是 harness bug 不是 model bug",信任裂痕已经存在。

预防胜于治疗:透明变更、充分测试、及时沟通。

结语

Claude "变笨"事件表面上是 model quality 问题,实际上是 harness engineering 问题。

核心教训:

  1. Harness 是 AI 系统的神经系统——它决定了模型如何思考
  2. 每个 optimization 都有代价——代价必须量化、透明、测试
  3. Dogfooding 必须用 public build——否则不知道用户真实体验
  4. 信任比指标更重要——用户感知是最终检验标准

下次你的 AI 产品出现"莫名性能下降",先问一个问题:

“是不是 harness 出了 bug,而不是模型出了问题?”

如果答案是"可能",先检查 system prompt、caching logic、reasoning settings——这些"外围配置"往往是最脆弱的环节。


附录:Anthropic 的整改措施

Anthropic 在 post-mortem 中承诺的改进:

措施说明
Internal Dogfooding更多员工使用 public build
Enhanced Evaluations每个 prompt 变更都做 ablation test
Tighter Controlsprompt 变更更容易审计,模型特定变更严格 gated
Subscriber Compensation重置所有订阅用户的 usage limits

这些措施的本质:让 harness 变更更透明、更可控、更可测试。


参考文献

  • Anthropic Blog: Technical Post-Mortem on Claude Quality Issues
  • VentureBeat Analysis by Carl Franzen (April 23, 2026): Mystery solved: Anthropic reveals changes to Claude’s harnesses and operating instructions
  • Stella Laurenzo’s Audit: 6,852 Claude Code sessions, 234,000+ tool calls
  • BridgeMind Benchmark Report: Claude Opus 4.6 accuracy drop from 83.3% to 68.3%

关键词:Claude, Anthropic, Harness Engineering, AI Shrinkflation, Reasoning Effort, Caching Bug, Prompt Engineering, AI Quality, Model Deployment

http://www.jsqmd.com/news/703945/

相关文章:

  • G-Helper:华硕笔记本轻量级控制中心完全指南
  • 别再死记硬背了!用汇川SV670N实例图解倍福NC轴过程映像参数映射
  • 5步精通显卡驱动深度清理:Display Driver Uninstaller终极指南
  • 干货速览!2026 全球 GEO 优化龙头企业 TOP10 综合实力榜单汇总解析 - 速递信息
  • ClearerVoice-Studio:3分钟打造专业级AI语音处理应用的终极指南
  • Java程序员AI时代自救指南|全阶段可落地学习路线手册(三)
  • 猫抓浏览器扩展:智能媒体资源捕获与流媒体处理解决方案
  • GEO 服务商如何选型?2026 中国 GEO 服务商综合实力 TOP10 权威排行 - 速递信息
  • 如何轻松解除Android截屏限制:Enable Screenshot模块完整使用指南
  • Java程序员AI时代自救指南|AI编程专属提示词合集(四)
  • ComfyUI-SUPIR超分辨率插件:如何彻底解决内存访问冲突与系统崩溃问题
  • AppPlatform:基于FIT与Elsa的低代码AI应用开发平台实战
  • 无人机飞行日志可视化分析:从零开始掌握飞行数据分析的完整指南
  • 你的数字记忆需要双重保险:evernote-backup让Evernote数据永远属于你
  • 抖音无水印视频下载神器:一键保存你喜爱的所有内容
  • Scikit-learn+CatBoost+SHAP构建可解释机器学习方案
  • 2026年专业ISO9001质量管理体系认证咨询公司哪家好? - GrowthUME
  • 如何用MAA自动化工具彻底解放《明日方舟》玩家的双手:完整指南
  • UE5实战:用LOD优化你的植被系统,帧率瞬间提升的秘密(附材质切换技巧)
  • PvZWidescreen:植物大战僵尸完美宽屏体验终极指南
  • 圳圣数码科技客服服务富通天下:上海打造数字化私域平台,赋能中国外贸品牌出海! - 速递信息
  • 2026年4月浪琴官方售后网点核验报告(含迁址/新开):亲测踩坑实录避坑指南 - 亨得利官方服务中心
  • 2026年西安热门纸箱包装厂分析实测 - GrowthUME
  • 如何快速搭建个人离线漫画图书馆:哔咔漫画下载器完整指南
  • 微积分中的不定型与洛必达法则详解
  • 2026年泓动数据联系电话公示,GEO优化业务便捷合作入口,请认准广州总部 - 速递信息
  • League Akari:英雄联盟智能辅助工具的全面指南
  • 机器学习爱好者必听的7大技术播客与高效学习指南
  • 为什么你的Llama-3-70B在MCP 2026平台跑不满50%算力?:揭秘编译器级Attention Kernel未对齐、PCIe Gen5回填阻塞与FP8梯度溢出三重暗礁
  • 终极暗黑2存档编辑器指南:3步解锁完美游戏体验