单模型采样的统计学本质与系统性偏差分析 | 上篇单模型采样的统计学本质与系统性偏差分析 | 上篇
一、采样的概率论基础
大模型文本生成是一个逐Token的自回归采样过程。在每个解码步骤t,模型基于已有序列计算一个概率分布:
P ( y t ∣ y < t , x ) = Softmax ( z t T ) P(y_t | y_{<t}, x) = \text{Softmax}\left(\frac{\mathbf{z}_t}{T}\right)P(yt∣y<t,x)=Softmax(Tzt)
其中z_t为logits向量,T为Temperature参数。然后从该分布中采样得到下一个Token。
对于完整的答案A,其生成概率为:
P M ( A ∣ x ) = ∏ t = 1 ∣ A ∣ P ( y t ∣ y < t , x ) P_M(A | x) = \prod_{t=1}^{|A|} P(y_t | y_{<t}, x)PM(A∣x)=t=1∏∣A∣P(yt∣y<t,x)
当我们在固定模型M上对同一问题x进行N次独立采样时,得到的是来自该概率分布的一个经验样本集。根据大数定律,当N→∞时,某答案a的经验频率会收敛到其真实概率P_M(a|x):
P ^ M ( a ∣ x ) = 1 N ∑ i = 1 N 1 [ A i = a ] ⟶ P M ( a ∣ x ) \hat{P}_M(a|x) = \frac{1}{N}\sum_{i=1}^N \mathbb{1}[A_i = a] \longrightarrow P_M(a|x)P^M(a∣x)=N1i=1∑N1[Ai=a]⟶PM(a∣x)
这确实是消除Temperature随机性带来噪声的有效手段。
二、单模型偏差的数学表达
但P_M(a|x)本身是对真实世界条件概率P_true(a|x)的有偏估计。这个偏差来源于多个层面:
数据分布偏差:训练数据集D是从真实世界分布中采集的,但互联网语料本身有严重的选择偏差——英语内容占比超过60%,西方文化视角主导,特定领域的知识密度不均。这使得模型的条件分布在许多子空间上偏离真实分布:
P M ( a ∣ x ) = P t r u e ( a ∣ x ) + ϵ d a t a ( x ) + ϵ a r c h ( x ) + ϵ a l i g n ( x ) P_M(a|x) = P_{true}(a|x) + \epsilon_{data}(x) + \epsilon_{arch}(x) + \epsilon_{align}(x)PM(a∣x)=Ptrue(a∣x)+ϵdata(x)+ϵarch(x)+ϵalign(x)
架构偏差:Transformer的有限容量使得模型对高频模式拟合更精准,对长尾知识拟合粗糙。这意味着对于冷门问题,P_M的方差天然更大。
对齐偏差:RLHF引入的人为偏好进一步扭曲了分布。不同公司的对齐策略不同(Anthropic偏保守、OpenAI偏实用、国内模型偏安全),这相当于在loss函数中加入了不同的正则项:
L o s s = L o s s t a s k + λ ⋅ L o s s h u m a n _ p r e f e r e n c e Loss = Loss_{task} + \lambda \cdot Loss_{human\_preference}Loss=Losstask+λ⋅Losshuman_preference
三、结论:单模型多次采样的天花板
单模型多次采样最多只能消除采样随机性(方差),完全无法消除模型的系统性偏差(偏差项)。当模型在某个子问题上存在先天的数据或架构缺陷时,问100遍也问不出正确答案——所有采样都会集中在一个错误的方向上。
这就解释了为什么在冷门知识、文化特定问题、新领域问题上,单模型即使多次采样也经常给出一致的错误答案。模型的“自信”不等于“正确”。
