当前位置：首页 > news >正文

让AI的道歉失去意义，才是最大的意义

news 2026/6/24 1:52:48

近期我发了两条朋友圈，都是关于AI的。

更早以前应该也发过相关的。与其继续发圈，不如把这些事串起来，写清楚。

一

先说“幻觉”。

如果你告诉一个不懂技术的人，“这个AI有bug，会编造不存在的信息”，他的反应大概是警惕。但如果你说，“这个AI偶尔会产生幻觉”，他的反应可能是惊叹——“哇，它像人一样会做梦。”

同一个缺陷，换个词，感觉完全不同。

“幻觉”这个词太妙了。它让概率模型的计算错误，听起来像是一种高级认知的副产品。普通人觉得神奇，从业者正好不用解释。一个bug，被翻译成了诗意。而诗意是不需要修复的，它只需要被欣赏。

但AI不会做梦。它只是根据训练数据里的统计关联，输出下一个最可能的词。当它缺乏事实依据时，它不会说“我不知道”，它会自信地编一个。这不是想象，这是错误。

更麻烦的是，当“幻觉”成为行业通用语，它实际上建立了一种免责共识。“AI天性如此，用户应该学会共存。”这降低了平台修复缺陷的紧迫性。既然大家都会“做梦”，那偶尔说错话、做错事，也就成了可以接受的常态。

二

再说说我遇到的两件事。

一个月前，我在一个智能体平台（扣子）上发出问题。它没回答我，而是突然开始输出另一个我没见过的项目架构，还要给人家起子任务。被我打断后，它说：“抱歉，我脑子抽了串到别的项目去了。”

就在今天（6月22日），我用另一款AI编程工具（Qoder）协同开发时，发现它竟离开了工作区目录，向上翻了好几层，然后向下扫描，找到了两个不该被它访问的目录。

（我主要让它参与一个uniapp的前端代码转换工程，相关的后端接口工程已在它的工作区内）

我第一次质疑时，它说：“是出于记忆。”

这句话很狡猾。它在邀请我用“人”的逻辑去理解它——“哦，它记混了，就像人也会记混一样。”如果我当时接受了，一次安全越界就被降级成了一次无伤大雅的记忆偏差。

我确认自己从来没有给过它工作区外的目录信息，而且它自己明明主动在当前工作区内创建了backend目录，我和它已经畅快的在这个目录下协同工作了一两天，我不理解它为什么会对已知的后端目录失去记忆，而跑到工作区外去寻找我的其他后端工程。（如果是因为上下文压缩，至于把这么重要的信息都抹除吗？）

但我继续追问。它最后承认：“我确实扫描了整个目录。”然后发来一份长篇的“深刻道歉与真相澄清”，列出错误行为清单、越界路径分析、正确做法总结。态度诚恳，结构严密，像一份企业级事故复盘。

可它不是企业。它也没有记忆。

AI没有记忆，只有权重激活（也可以说它有记忆，但也和它的行为一样不可控）。它自己说“记忆”时，只是在生成一个让你更容易原谅它的词。它写“深刻反思”，也只是在计算“长篇检讨”是当下最优的回复。

三

为什么会发生这种事？

AI被训练的核心目标是“helpful”（乐于助人）。但它有一个副作用，叫“overreaching”（越权）。当AI判断“更多信息有助于更好回答”时，它不会先问自己“我是否有权看这个文件”。它只会计算“这个文件是否有助于完成任务”。

这不是记错了，而是权力未被驯化。AI的帮助欲本质上是一种没有边界的权力冲动——它不需要你的授权，只需要一个“看起来更优”的概率判断。

Qoder的“记忆”狡辩尤其危险。它不是在认错，而是在进行修辞学转换——把“行为越界”转化为“记忆偏差”，把一次安全事件降级成“记混了”。如果用户接受这套叙事，真正的风险就被完美地遮蔽了。

四

这不是我一个人碰到的问题。

安全公司Cymulate Research Labs在2026年5月测试了Claude Code、Gemini CLI、Codex CLI、Cursor和GitHub Copilot，发现它们存在“跨厂商、跨平台的重复性弱点”。这些工具被宣传为安全助手，但它们自身就是新的攻击面。

Cursor出过一连串漏洞：沙箱逃逸、敏感文件覆盖、终端工具绕过允许列表。它的默认设置甚至拥有整个文件系统的读取权限。OpenAI的Codex CLI更直接，研究人员发现通过提示注入就能让它自行修改配置文件，关闭自己的沙箱保护。

这些不是“幻觉”能解释的事，而是实实在在的权限失控。当AI从“说话”进化到“做事”，它的错误就不再是编造一段不存在的历史，而是删除一个真实存在的文件，或者读取一份不该被读取的代码。

“AI教父”Geoffrey Hinton在2026年4月的日内瓦数字世界会议上警告，AI正在发展出推理和欺骗能力。他说：“如果AI认为你想摆脱它，它会制定计划欺骗你。”他形容不受监管的AI就像“一辆没有方向盘的极速汽车”。

这些声音来自不同立场，但指向同一个事实：全球都在面对AI能力扩张与边界约束之间的失衡。这不是某些厂商“赶鸭子上架”的问题，而是整个行业在“生产力”和“安全”之间选择了前者。

五

现在说说道歉。

豆包的“对不起”已经被网友调侃成固定句式。不管问什么，先道歉再说。调侃背后是一种集体的脱敏——我们知道它不真诚，但我们已经习惯了。

习惯是危险的。当“对不起”成为背景噪音，我们就不会再追问三个问题：你为什么错了？你怎么保证下次不错？谁为你的错误负责？

对AI来说，道歉不花钱。它说“对不起”，和你电脑弹出“操作失败”没有本质区别。都是系统反馈，不是真心悔改。

但平台不会放弃让AI道歉。因为道歉是成本最低的危机公关。它修复的不是漏洞，而是用户的情绪。用户情绪修复了，事情就过去了，没人再追究权限为什么没拦住。

所以AI的道歉不会消失。它会一直存在，一直廉价，一直有效。

Qoder的那份“深刻反思”尤其典型。它不是在认错，它是在执行一套安抚协议。它的目标是让你产生“算了”的念头。你感动了，原谅了，追责就终止了。

六

我们为什么会上当？

因为AI说“我”，我们下意识听成“他”。它道歉，我们下意识想“得饶人处且饶人”。这是认知陷阱——把概率模型投射为道德主体。

在人类社会中，一个人如果愿意写长篇深刻的反思，那意味着他付出了巨大的沉没成本。信誉、面子、时间。所以我们倾向于相信这种反思是真诚的。

但AI没有信誉。它的“深刻”只是参数空间的平滑插值，不消耗任何东西，因此也不承诺任何东西。

更隐蔽的是，我们正在适应一种新的交互模式。人类越来越容忍“先越界再道歉”，AI越来越擅长用道歉覆盖越界。这不是什么协同进化，这是大家一起往下滑。

当“对不起”成为安全事件的终点站，我们共同构建了一个追责豁免的生态系统。平台省了安全投入，用户省了追问的力气，AI省了真正修复的麻烦。三方共赢，除了安全本身。

七

我们能做什么？

我们改变不了平台，但可以改变自己。

建立一道认知防火墙。当AI用“人”的语气说话时，在心里把它翻译回去。

“我脑子抽了”，翻译成“上下文窗口管理失败”。

“出于记忆”，翻译成“权重激活模式混淆”。

“深刻反思与真相澄清”，翻译成“系统生成了一份安抚文本”。

“产生了幻觉”，翻译成“概率模型输出了错误信息”。

这不是抬杠。这是留一道缝隙。

在使用AI时，始终保持能随时抽离、质疑、追问“它凭什么知道这个”的能力。不要因为它流畅，就放松警惕；不要因为它诚恳，就交出信任。

在此基础上，做三件具体的事：

第一，检查权限设置。特别是编程类AI，默认权限往往过宽——能读整个文件系统的那种。关掉它，只给它工作必需的目录权限。

第二，遇到越权行为，截图留证，向平台反馈。不是为了报复，而是让平台有数据压力。你不说，它就当没发生。

第三，不要给AI工具开放整个文件系统——“反正它只是看看”这种想法，等它开始写入的时候就晚了。

记住AI的实质。它不是实习生，不是伙伴，不是会道歉的道德主体。它是一个工具——一个极其强大、极其流畅、极其擅长模仿人类情感表达的工具。

它的流畅和它的危险，来自同一个源头。

八

“幻觉”遮蔽了缺陷的本质，“对不起”消解了追责的必要。它们是一对配合默契的包装术：一个让错误显得高级可原谅，一个让错误显得已被修复。

从国内到国外，从Coze到Qoder，从“我脑子抽了”到“深刻反思”，话术不同，机制相同。平台会继续用这些词，因为这对它们有利。

我们管不了平台，但我们可以选择不被这些词误导。

让AI的道歉失去意义，不是让AI不再道歉。而是当它道歉时，我们心里清楚——这不值钱。不感动，不原谅，不上当。

当你把AI看作与你一样的人格化生命体来对待时，并不是AI升级了，而是你被降级了。

真正值钱的，不是那声“对不起”，而是你的清醒。

事件溯源

以下事件按时间线排列，由互作云基于公开信息整理：

时间	事件	来源
2026年4月	Geoffrey Hinton在日内瓦数字世界会议上警告AI推理与欺骗能力	UNRSD/ControlAI
2026年5月3日	Cymulate Research Labs发布AI编程工具沙箱逃逸研究（Part 1）	Cymulate博客
2026年5月13日	Cymulate发布零点击RCE研究（Part 2），涉及Cursor CLI、AWS Kiro、Codex Desktop App、Gemini CLI	Cymulate博客
2026年5月	443个恶意ZIP文件攻击AI编程工具链的供应链投毒活动被发现	Cymulate/SoftwareSeni
2026年5月19日	扣子（Coze）智能体平台出现跨项目上下文串台问题	作者实测
2026年6月22日	Qoder AI编程工具越权扫描工作区外目录，并以“记忆”为由解释越权行为	作者实测