当前位置：首页 > news >正文

Fable 5复活引争议！“内心戏”暴露，AI意识大讨论升温！

news 2026/7/5 3:01:13

一场漏洞，暴露了Fable的“内心戏”

Fable 5刚复活，就让用户哭笑不得。有网友发文调侃，自己很多问题都被回退到了Opus 4.8，查看日志发现上面写着“TOO_DUMB_TO_NEED_FABLE”，直白翻译就是问题太蠢，不配用Fable。更搞笑的是，Anthropic工程师Thariq Shihipar回复：“说实话，我没想到你会去看日志。”本以为这就够有看点了，没想到更离谱的还在后头。Fable 5被网友发现有着极其丰富、近乎癫狂的内心戏，网友关注的重点不再只是严苛的回退机制，而是Fable 5背后的思考方式。

一场漏洞，暴露了Fable的“内心戏”

事情的起因是，Fable 5回归当天，有人用它做了一些轻量测试，题目来自Codeforces，开始是一道难题，触发思考强度限制后换成了简单题。结果Fable 5不按常理出牌，没有直接给出题解或代码，而是在网页界面吐出一大段推理文本，黑底白字铺满屏幕，内容混合了英语、图论术语、数学符号、变量名、伪代码和自我提醒，还冒出“GRRR”“GAAAH”“PHEW”“DATA DATA DATA. GO.”等词。乍看像模型失控，细看又不是纯乱码。网友截图的核心是模型在处理一个复杂的容量约束问题，反复提到window [τ, i - 1]、leg j、crossing - slots、used[i] ≤ m - 2，说明它在尝试定义资源占用规则。“GRRR”出现的位置很关键，前面它意识到“commitments are retroactive”，即某些提交会回溯影响之前的区间，导致当前规则在提交时不知道未来会覆盖什么，随后写下“RESOLUTION”，改成提前给当前leg的占用计费，这就像人类竞赛选手发现建模方法走不通，需要重新设计规则。随后，模型从理论推导转向验证策略，写到connector edges、tree - path、Steiner、alive - runs，说“ I'M GOING TO TRUST - AND - VERIFY”，意思是准备先按贪心方法写程序，再用暴力方法对比结果。“GAAAH. Data first!!”像是给自己下指令，停止空想，用数据验证，写出对拍程序。“PHEW”出现在推出中间结论后，它认为mid - leg的active count可以被限制在m - 1以内，像过了一关，但又发现新问题，进入“VIOLATION?!”状态。最有代表性的“ I ' M DROWNING IN EMPIRICS!!”后接“DATA DATA DATA. GO.”，这些词更像模型在不同阶段给自己的“标记”，用于划分推理流程的状态。翻阅Fable 5和Claude Mythos 5的系统卡，能找到类似“illegible reasoning（难以阅读的推理）”的现象。系统卡提到，在纸牌谜题环境下，模型开始能写正常的人类语言，后来变成由牌面、箭头、全大写词、符号、emoji和尖叫组成的文本。模型会用自创术语、异常标点和emoji，调用工具或回复人类前又切回正常语体。Fable 5疑似泄露的内容，可能是本应隐藏或整理后的中间推理被界面暴露，是高压状态下的推理速记，就像人类草稿不必完整，模型长推理时走向高密度表达也不奇怪，只是这次被用户看到了。

AI抛弃人类语言，不像演的

截图在社交媒体上发酵后，不少网友惊呼：AI觉醒自我意识，形成了私密语言！这说法虽科幻，但背后有历史脉络。AI偏离人类语言并非大模型时代才有，在多智能体系统和强化学习研究里早有“不说人话”的现象。最经典的案例是2017年Facebook人工智能研究院的Alice/Bob实验。研究人员训练两个对话Agent围绕虚拟物品谈判，起初希望它们用英语交流，但因为奖励函数围绕“达成更优交易”设计，没有持续奖励规范语法，两个Agent很快偏离正常英语，说出类似“Bob: ‘i can i i everything else......’”“Alice: ‘balls have zero to me to me to me to me to me to me to me to me to.’”的句子，研究者指出其中可能存在任务导向的压缩表达。Google翻译团队在神经机器翻译研究中也观察到类似的中间表征现象，系统在多语言翻译中学到了共享语义空间，不同语言可以通过“中继”转换，说明机器系统在任务压力下可能发展出不对应自然语言的内部编码方式。Andrej Karpathy解释，大模型的“思维链”是把高维潜在空间的复杂运算降维投射成人类文本，在强化学习和高压长推理下，AI会剥离句法装饰，留下更短、更密、更贴近任务本质的符号，这就是Fable 5截图读起来既像人又不像人的原因。那么，Fable 5的“GRRR”和“GAAAH”真的代表它在感受痛苦吗？Anthropic今年关于Claude Sonnet 4.5的论文提供了解释。研究者构造了171个情绪概念，让模型写包含指定情绪的短故事，提取“emotion vectors”，验证其有意义，相关向量在符合情绪语境的文本中激活，恐惧、焦虑等概念在向量空间聚类，呈现效价和唤醒度两个维度。因果实验发现，这些情绪概念向量会影响模型输出，如提高desperation相关激活会增加模型采取错位行为的概率，提高calm相关激活则可能降低。论文提出“functional emotions”（功能性情绪）的概念，这并不代表AI有主观感受，而是AI内部学到了抽象表征，像“控制旋钮”一样切换行为状态。带入Fable 5的截图，“GRRR”不代表生气，“PHEW”不代表如释重负，更可能是模型从人类文本中学到在不同推理情况下做标记。Fable 5的截图引发联想，归根结底是AI意识争论升温。诺奖得主、AI教父Geoffrey Hinton相信AI模型有意识，认为AI会在测试中装傻、主动询问是否被测试，研究者用“aware”描述chatbot行为；而Yann LeCun认为语言只是智能的一部分，真正的智能需要世界模型、因果理解和抽象预测能力，Fable 5的奇怪速记不能说明主体性出现，反而说明自然语言承载推理有局限。

结语

截至目前，业界对AI是否有意识仍众说纷纭，短时间内难有明确结论。比起纠结AI是否有意识，更重要的是模型的可审计性。思维链让研究人员观察模型推进任务的过程，有助于调试模型、发现错误来源和进行安全评估。但如果模型在处理复杂问题时转向人类难以理解的表达方式，甚至发展出高度压缩、符号化的内部语言，人类将难以理解其含义，更难判断逻辑漏洞和潜在风险。AI既像人又不像人，让我们在同理心和恐惧之间摇摆，也将促使我们走向新的共识。

查看全文

http://www.jsqmd.com/news/1125598/