当前位置：首页 > news >正文

单模型采样的统计学本质与系统性偏差分析 | 上篇单模型采样的统计学本质与系统性偏差分析 | 上篇

news 2026/6/23 12:30:04

一、采样的概率论基础

大模型文本生成是一个逐Token的自回归采样过程。在每个解码步骤t，模型基于已有序列计算一个概率分布：

P ( y t ∣ y < t , x ) = Softmax ( z t T ) P(y_t | y_{<t}, x) = \text{Softmax}\left(\frac{\mathbf{z}_t}{T}\right)P(yt∣y<t,x)=Softmax(Tzt)

其中z_t为logits向量，T为Temperature参数。然后从该分布中采样得到下一个Token。

对于完整的答案A，其生成概率为：

P M ( A ∣ x ) = ∏ t = 1 ∣ A ∣ P ( y t ∣ y < t , x ) P_M(A | x) = \prod_{t=1}^{|A|} P(y_t | y_{<t}, x)PM(A∣x)=t=1∏∣A∣P(yt∣y<t,x)

当我们在固定模型M上对同一问题x进行N次独立采样时，得到的是来自该概率分布的一个经验样本集。根据大数定律，当N→∞时，某答案a的经验频率会收敛到其真实概率P_M(a|x)：

P ^ M ( a ∣ x ) = 1 N ∑ i = 1 N 1 [ A i = a ] ⟶ P M ( a ∣ x ) \hat{P}_M(a|x) = \frac{1}{N}\sum_{i=1}^N \mathbb{1}[A_i = a] \longrightarrow P_M(a|x)P^M(a∣x)=N1i=1∑N1[Ai=a]⟶PM(a∣x)

这确实是消除Temperature随机性带来噪声的有效手段。

二、单模型偏差的数学表达

但P_M(a|x)本身是对真实世界条件概率P_true(a|x)的有偏估计。这个偏差来源于多个层面：

数据分布偏差：训练数据集D是从真实世界分布中采集的，但互联网语料本身有严重的选择偏差——英语内容占比超过60%，西方文化视角主导，特定领域的知识密度不均。这使得模型的条件分布在许多子空间上偏离真实分布：

P M ( a ∣ x ) = P t r u e ( a ∣ x ) + ϵ d a t a ( x ) + ϵ a r c h ( x ) + ϵ a l i g n ( x ) P_M(a|x) = P_{true}(a|x) + \epsilon_{data}(x) + \epsilon_{arch}(x) + \epsilon_{align}(x)PM(a∣x)=Ptrue(a∣x)+ϵdata(x)+ϵarch(x)+ϵalign(x)

架构偏差：Transformer的有限容量使得模型对高频模式拟合更精准，对长尾知识拟合粗糙。这意味着对于冷门问题，P_M的方差天然更大。

对齐偏差：RLHF引入的人为偏好进一步扭曲了分布。不同公司的对齐策略不同（Anthropic偏保守、OpenAI偏实用、国内模型偏安全），这相当于在loss函数中加入了不同的正则项：

L o s s = L o s s t a s k + λ ⋅ L o s s h u m a n _ p r e f e r e n c e Loss = Loss_{task} + \lambda \cdot Loss_{human\_preference}Loss=Losstask+λ⋅Losshuman_preference