当前位置：首页 > news >正文

大型语言模型推理新框架：State over Tokens解析

news 2026/6/26 17:35:45

1. 大型语言模型推理机制的新视角：State over Tokens框架解析

当大型语言模型（LLM）面对复杂问题时，它们常常会生成一系列看似人类思考过程的中间文本——"让我们一步步思考"、"因此可以得出结论"等。这些被称为"推理标记"（reasoning tokens）的文本序列，长期以来被研究者们以"思维链"（Chain-of-Thought）的隐喻来理解。然而，最新研究表明，这种理解方式可能从根本上误解了这些标记的真实功能。

1.1 传统认知的局限性

在传统观点中，研究者倾向于将LLM生成的推理文本视为模型"思考过程"的可读记录。这种观点源于两个观察：

功能性：包含推理标记的生成确实能显著提高模型在复杂任务上的表现（如数学推理、逻辑问题等）
表象性：这些标记序列在语法和语义上都符合人类可理解的推理叙述

然而，多项实证研究已经揭示了这种认知的缺陷。2025年Turpin等人的研究表明，模型生成的推理文本常常遗漏关键计算步骤；Chen等人的工作则发现，LLM甚至可以在生成看似无关的推理文本的同时，依然输出正确答案。这些发现迫使我们重新思考：如果这些文本不是对内部计算的忠实记录，那么它们究竟是什么？

1.2 State over Tokens框架的提出

State over Tokens（SoT）框架提供了全新的理论视角。它将推理标记重新定义为：

一种外部化的计算状态——在模型无状态的生成周期之间唯一持续存在的信息载体

这一概念突破性地指出：推理标记的本质功能不是作为人类可读的解释文本，而是作为LLM维持跨计算周期连续性的状态编码机制。这与传统计算机科学中的"状态"概念一脉相承——就像有限状态机需要状态寄存器来维持计算连续性一样，LLM通过生成的文本来实现类似功能。

1.2.1 白板类比：理解SoT的直观方式

想象你被关在一个房间里，面前有一块白板写着待解决的问题。但每10秒钟你的记忆就会被重置一次，唯一能保留信息的方式就是在白板上写下内容。在这种情况下，你很可能会：

写下中间计算结果而非完整推导过程
使用只有自己理解的编码方式（缩写、符号等）
每次"重启"后依靠白板上的内容继续推进解决过程

这正是LLM的工作机制：模型在每个生成周期（约10-100毫秒）后"重置"内部状态，仅依靠已生成的文本来维持计算连续性。外部观察者（人类）看到的"推理文本"，对模型而言可能只是特定状态编码的副产品。

2. SoT框架的技术实现与理论基础

2.1 LLM生成过程的数学描述

从计算角度看，LLM的生成过程可以形式化为递归应用的纯函数M(·)：

S₀ = 用户输入 Sₖ₊₁ = Sₖ ⊕ M(Sₖ)

其中⊕表示拼接操作。关键特性包括：

状态唯一性：序列Sₖ是跨周期唯一持续的信息载体
计算局限性：每个M(·)调用具有固定的计算容量
信息编码：模型自主决定如何在Sₖ中编码必要状态信息

这种形式化揭示了为什么推理标记不必（也通常不会）忠实反映内部计算：它们只需包含足够信息来驱动下一周期的计算，而非记录已发生的计算过程。

2.2 状态编码的实证证据

多项研究支持SoT框架的核心论点：

研究发现	研究团队	对SoT的支持
LLM可在推理文本中省略关键计算步骤	Turpin et al. 2023	状态不必完整
无关推理文本仍能产生正确答案	Stechly et al. 2025	语义与功能解耦
人类无法识别文本与计算的因果关系	Levy et al. 2025	编码方式不透明

这些发现共同表明：推理标记作为状态载体的功能，与其作为自然语言文本的表象之间存在根本性分离。