吉林大学、阿里云等:为什么AI挑选训练数据时总爱“偏心“长句子?
这项由吉林大学、阿里云计算、浙江大学及密歇根大学数学系等机构联合开展的研究,发表于2026年4月,论文编号为arXiv:2604.06834,有兴趣深入了解的读者可通过该编号查阅完整论文。
一、故事从一个"偷懒的老师"说起
假设你是一位英语老师,负责从学生的作文堆里挑出"写得最好"的作品放进教材。你定了一条规则:专找那些读起来"最顺"的文章——也就是说,你觉得读起来越流畅、越自然的,就越好。
这条规则听起来没什么问题,对吗?
然而有一天,你突然发现一件奇怪的事:你挑出来的"优秀作文",几乎全是长篇大论,那种写了满满五六页的。短小精悍、直击要害的好文章反而统统被你忽略了。
你回头研究了一下,才发现原来自己的"读起来流畅"的直觉被愚弄了。长文章里有大量普通的流水句,把开头那一两句拗口的、费力思考的难句"稀释"了。所以整体读下来感觉挺顺,但其实藏着不少废话。而短文章里,哪怕整体写得很精彩,因为开头那几个难句占比太高,整体"流畅感"就被拖低了。
这个"偷懒老师"的困境,正是这篇论文的核心故事——只不过,那个"偷懒老师"换成了今天最先进的人工智能训练流程里的一个关键环节:**数据筛选**。
二、AI是怎么学会"长篇推理"的?
在正式讲困境之前,有必要先交代一下这个故事发生的背景。
近年来,以DeepSeek-R1为代表的一批"大推理模型"横空出世,让人们大开眼界——这些AI不再是简单地给出一个答案,而是会一步一步、洋洋洒洒地把思考过程写出来,就像一个学生解数学题时会把草稿纸写满一样。这种"把推理过程写出来"的能力,行话叫"长思维链(Long Chain-of-Thought)",简称长CoT。
要让AI学会这种能力,目前最主流的做法是"监督微调(SFT)":找一个更聪明的大模型,让它针对大量数学题、科学题生成解题过程,然后把这些解题过程当作教材,喂给一个"学生模型",让它照着学。
问题在于,更聪明的大模型生成的答案并不全是高质量的。有些解题过程绕弯子、有些步骤有错误、有些推理啰嗦冗余——这些"劣质教材"如果混进去,会把学生模型带歪。于是,**如何从一大堆候选答案里挑出最好的那些**,就成了一个至关重要的问题,也催生了所谓的"推理数据选择"这个研究方向。
三、"自然度评分"——一个看起来很聪明的办法
在各种筛选数据的方法里,有一类叫做"基于自然度(naturalness-based)的方法",它的逻辑相当直观:
你用一个学生模型去"阅读"候选数据,让它给每条数据打一个"熟悉感分数"——具体来说,就是计算这个学生模型觉得这条数据"有多像是自己会写出来的东西"。分数越高,说明这条数据越贴近学生模型的现有能力,越容易被它学进去。反之,分数太低,说明数据对学生模型来说太陌生、太难消化,学了可能适得其反。
这个"熟悉感分数"在技术上用"平均对数概率(average log probability)"来衡量。打个比方:你让AI阅读一段文字,它会在心里悄悄猜测每个词出现的概率。如果一段文字里的每个词它都猜得比较准(概率高),说明这段文字对它来说很"自然";如果很多词它都没猜到(概率低),就说明这段文字对它来说很"陌生"。把所有词的概率取个平均值,就得到了这条数据的"自然度分数"。
这个思路听起来相当合理,而且已经有多篇论文验证了它的有效性。代表性的方法包括直接用全局平均对数概率打分的"GRACE"方法,以及更精细地把推理过程分段、逐段计算概率再平均的"Local LP"方法。
然而,这篇论文的研究团队在实际使用这类方法时,发现了一个令人不安的现象。
四、"偏心"的选手——步长混淆问题
研究团队用这些"自然度"方法,对一批AI生成的推理数据进行了筛选实验。他们用四个强大的推理模型(包括QwQ-32B、Qwen3-32B、DeepSeek-R1-Distill-Qwen-32B和gpt-oss-120b)针对800道数学题各生成了5个答案,共16000份候选数据,然后用"自然度"方法从中挑选5份最佳答案。
筛选完成后,他们把"被选中的数据"和"未被选中的数据"分别画出了分布图——这里重点关注的是"步长(step length)",也就是推理过程中**每一步推理包含多少个词**。
结果让人大吃一惊:**无论用哪种自然度方法,被选中的数据里,每步推理的篇幅都明显比未被选中的数据长得多**。未被选中的数据,步长大多集中在30个词左右;而被选中的数据,步长的分布整体向右偏移,充斥着每步六七十个词甚至更长的推理步骤。
而且,这个"偏心"现象在GRACE、Local LP、Min Entropy(最小熵)、Min Perplex(最小困惑度)四种方法里都一样明显。这说明这不是某一种方法的偶然失误,而是"自然度"这类方法的系统性偏差。
研究团队把这个现象命名为**"步长混淆(step length confounding)"**——意思是,"自然度"这个指标被推理步骤的长度"混淆"了,它实际上选的是"步子长的数据",而不是"质量高的数据"。
五、为什么会这样?抽丝剥茧找原因
发现了问题,研究团队没有满足于此,而是继续追问:这个"偏心"现象背后的真正原因是什么?
他们首先做了一个实验:把所有推理步骤按照步长分组(10个词一步、20个词一步……直到100个词以上一步),然后计算每组步骤的平均对数概率。
结果非常清晰:**步长越长,这一步的平均对数概率就越高**。而且这个规律在四个不同的大模型里都成立,是一个稳定的现象,不是偶然。
那么,为什么长步骤的平均概率会更高呢?研究团队仔细查看了具体的词语概率数据,注意到了一个关键细节:**每一步推理的第一个词,概率总是特别低**。
这其实不难理解。在推理过程中,每一步的开头往往是一个"岔路口"。比如,这一步的开头可以是"因此……",可以是"但是……",可以是"换个角度……",可以是"我们知道……",可以是"等等……"——有很多种可能的走向,AI在这里面临较大的不确定性,所以任何一个具体词的概率都相对低。行话叫"高熵(high entropy)",通俗地说就是"岔路口上的选择太多,不好猜"。
但是,在第一个词确定之后,后续的词就顺水推舟了。"因此,我们得出……"后面跟什么,基本上就那么几种说法,AI猜起来轻松得多,概率自然高。
现在把这两点结合起来看——
对于一个**短步骤**(比如只有8个词),如果第一个词的对数概率是-5.48(非常低),而后面7个词的概率都比较高,那么这8个词平均下来,分母是8,那个特别低的-5.48被8个数平均,拉低了整体均值,均值可能只有-2.15左右。
对于一个**长步骤**(比如有67个词),同样第一个词的对数概率很低,但后面66个高概率词把这个低分"稀释"了。分母是67,那个低分只占1/67,对均值的影响微乎其微,最终均值可能高达-0.41。
这就是研究团队在论文里展示的真实数据案例:步长8的短步,平均概率-2.15;步长67的长步,平均概率-0.41。差距悬殊,但根本原因不是长步骤质量更好,而是第一个词的低概率被稀释了。
归根结底,**步长混淆的元凶,就是每步推理开头那个"高熵第一词"**。它概率低,在短步骤里占比大,就把整体分数拉低;在长步骤里占比小,整体分数就被托高。
六、两种解法:一刀切还是精准手术?
找到了病因,研究团队设计了两种解决方案,统称为"ASLEC(Alleviating Step Length Confounding,缓解步长混淆)"。
第一种方案叫**ASLEC-DROP**,思路非常直接——既然每步第一个词的概率是罪魁祸首,那就在计算平均概率时,把每步的第一个词直接丢掉不算。这就像你在评分时说:"第一句话不算,从第二句开始评分。"剩下的词的平均概率,就不会再受到第一个词低概率的干扰,自然也就消除了对步长的偏好。
这种方法简洁高效,没有任何额外的计算负担。但它也有一个明显的代价:第一个词本身也携带信息,比如推理转向的选择,体现了AI的思维灵活性和推理方向感。把它直接扔掉,虽然消除了偏差,但也丢失了信息。
于是有了第二种方案——**ASLEC-CASL**,这是一种更"精准的手术"。它的灵感来自统计学和因果推断领域的"去混淆(debiasing)"技术。
具体操作是这样的:对所有候选数据,同时计算三个量——第一个词的平均对数概率、其余词的平均对数概率,以及"第一个词占所有词的比例"(也就是步长的倒数,步越长这个比例越小)。然后用线性回归分析,建立一个方程,把"全局平均对数概率"拆解成这三部分的线性组合。
通过这个方程,研究团队能精确估算出"第一个词比例"这个混淆因子对整体分数的具体影响力——用希腊字母γ表示。最后,在计算最终的筛选分数时,把这个混淆影响直接从原始分数里减去,得到一个"去偏后的分数"。
打个比方:ASLEC-DROP就像裁判说"不算第一棒的成绩";而ASLEC-CASL则是裁判先统计出"第一棒对总成绩的系统性影响是多少",然后在所有选手的总成绩里扣掉相应的分数,让第一棒的影响回归合理水平。前者简单粗暴,后者更加精细,保留了第一个词携带的有用信息,只是消除了它带来的偏差。
七、实验数据说话:效果到底怎么样?
研究团队在两个大型推理数据集上进行了系统测试:一个是包含800道精心筛选数学题的LIMO-v2数据集,另一个是来自英伟达的大规模AceReason-1.1-SFT数据集(从中随机抽取了1万道数学题)。他们用四个不同大小、不同系列的学生模型(Qwen3-4B-Base、Qwen3-8B-Base、Qwen3-4B-Instruct、Qwen2.5-7B-Instruct)进行训练,并在五个评测基准上打分:数学竞赛AIME24、AIME25,数学题库MATH500,数学奥林匹克题库OlympiadBench,以及科学推理基准GPQA。
结果相当令人振奋。以LIMO-v2数据集为例,Qwen3-4B-Base这个学生模型,用GRACE方法筛选的数据训练后,在AIME24上的准确率只有16.66%;用Local LP方法筛选的数据训练后提高到19.16%;而用ASLEC-DROP训练后跳升到30%,用ASLEC-CASL则进一步达到31.66%。在另一个测试集AIME25上,改善幅度同样显著:GRACE对应33.33%,Local LP对应36.66%,ASLEC-DROP达到43.33%,ASLEC-CASL更高达46.66%。
把所有模型、所有数据集、所有测试集的成绩综合平均来看,ASLEC-DROP比当前最优的Local LP方法平均提升了6.28%,而ASLEC-CASL则提升了9.08%——这是相当大的差距,尤其考虑到这些都是高难度的竞赛题目,每一个百分点都来之不易。
更有意思的是,研究团队还观察到:两种方法在数据量较小的情况下(比如LIMO-v2只有800题,而AceReason有1万题)效果提升更加明显。这说明数据越少、越珍贵,筛选质量的影响就越大,去除偏差带来的收益也越显著。
研究团队还专门验证了方法确实解决了"步长混淆"问题本身:用ASLEC-DROP和ASLEC-CASL筛选出来的数据,其步长分布与未被选中的数据之间,差异已经非常小——不再像原来那样选出的数据清一色是长步骤,而是覆盖了更多样化的步长范围。
八、数字背后的深意:线性回归告诉我们什么
ASLEC-CASL方法里,那个拟合出来的线性回归模型,其参数本身也非常有信息量。
研究团队在LIMO-v2数据集上,分别对四个来源模型(QwQ-32B、Qwen3-32B、DS-Qwen-32B、gpt-oss-120b)的生成数据各自拟合了一套参数。几个关键发现值得细说。
首先是那个混淆因子的系数γ。综合所有数据的整体拟合结果,γ约为-0.680。这意味着:如果两条数据之间,"第一个词占所有词的比例"相差0.05(比如一条是10%,另一条是15%),那么这个差距导致的整体概率差异,相当于每个词的概率降低了约3.34%。
在四个来源模型中,gpt-oss-120b生成的数据对应的γ值最高,达到了-1.284——这说明这个模型生成的数据里,步长混淆问题最为严重,第一个词的低概率对整体评分的拉低效应最大。
另一个值得注意的参数对比是β?和β?,分别对应"第一个词概率"和"其余词概率"对整体分数的贡献权重。所有模型里,β?都远远小于β?——以Overall整体结果为例,β?约为0.066,而β?约为0.944。这进一步从数学上确认了:在计算整体自然度分数时,第一个词的权重本来就不应该那么高,现有方法隐含地给了它过高的影响力,而ASLEC-CASL通过去偏操作修正了这一点。
最后,残差ε始终保持在接近0的水平,说明线性回归的拟合误差很小,去偏操作的精度是有保障的。
九、总响应长度的干扰——一个意外的插曲
研究团队还顺带研究了另一个相关问题:总响应长度(即整条推理链的总词数)是否也会影响自然度筛选?
有趣的是,实验发现答案是"是,但影响方向和步长正好相反,而且影响程度小得多"。
从数据来看,响应越长,其末尾部分的词概率反而越高——因为随着推理的展开,后续内容越来越确定,AI越来越"知道"自己在写什么,预测准确率升高。所以如果纯粹按总响应长度来分析,应该是长响应更容易被选中。
然而实际观察到的结果是:被选中的数据平均总长度(约9800词)反而比未被选中的(约15400词)短得多!这个看似矛盾的现象,其实正是步长混淆在作怪——步长混淆的效果如此强烈,以至于彻底压过了总响应长度本身的影响,把选择方向反转了。
研究团队还用回归分析定量证明了这一点:在方程里同时加入步长混淆因子和总长度因子后,总长度的系数γ?大约在10??到10??量级,比步长混淆因子γ小了大约两个数量级。在实际效果上,是否把总长度偏差也一起去掉,对最终模型性能几乎没有影响。
这个发现也与其他研究的结论一致:更长的推理过程通常对模型学习更有帮助,总响应长度带来的偏差本身可能还有一定正向作用,强行去掉反而可能得不偿失。
十、收敛过程:慢热还是快进
研究团队还展示了一组收敛分析图,比较了用GRACE方法选出的数据和用ASLEC方法选出的数据在训练过程中损失值(可以理解为"学习错误率")的下降曲线。
结果显示,用GRACE数据训练的模型,损失值始终比用ASLEC数据训练的模型高——也就是说,"错误率"一直更高。而ASLEC选出的数据,让模型收敛到了更低、更好的损失值。
这从另一个角度证明了:ASLEC选出的数据,对学生模型来说确实"更自然、更贴合"——不是因为步长更长,而是因为质量更高,更适合学习。
---
说到底,这项研究讲的是一个"打分规则被钻了空子"的故事。AI训练数据的筛选,本来是要挑质量高的,结果却无意中挑了步子长的。根本原因是一个隐藏的技术细节:每步推理开头那个词的低概率,在长步骤里被稀释了,让长步骤的整体评分虚高。
研究团队通过两种方案修正了这个偏差——一种是直接把开头那个词的分数丢掉不算,另一种是用统计方法精确量化并消除它的影响。测试结果表明,这两种方案都能让训练出来的AI模型在数学竞赛题上表现更好,尤其是在数据量有限的情况下,提升幅度相当显著。
这个发现对今天AI大模型训练的实际流程有直接的参考价值——当我们在挑选训练数据时,评分标准本身是否被某些隐藏因素干扰,是一个值得认真检查的问题。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.06834查阅完整论文,其中还附有开源代码和数据集的获取方式。
---
**Q&A**
Q1:步长混淆问题是什么,为什么会影响AI训练数据的筛选质量?
A:步长混淆是指在用"自然度"方法筛选AI推理训练数据时,筛选结果系统性地偏向每步推理词数更多的数据,而不是质量更高的数据。根本原因在于,每步推理的第一个词由于面临多种可能的分叉选择,概率天然偏低。在短步骤里这个低概率词占比大,会拖低整体平均分;在长步骤里它被后续大量高概率词稀释,整体均值反而被托高。于是筛选方法误把"长步骤"当成"高质量"。
Q2:ASLEC-DROP和ASLEC-CASL两种方法有什么区别?
A:ASLEC-DROP的做法是计算平均概率时直接丢掉每步推理的第一个词,简单粗暴,没有额外计算负担,但会损失第一个词本身携带的推理方向信息。ASLEC-CASL则通过线性回归模型,精确估算第一个词比例对整体分数的系统性影响,然后从原始分数中减去这部分影响,既消除了偏差,又保留了第一个词的有用信息。实验结果显示ASLEC-CASL整体表现优于ASLEC-DROP。
Q3:ASLEC方法在实际训练中能提升多少效果?
A:根据在LIMO-v2和AceReason-1.1-SFT两个数据集上、四个不同大小的学生模型、五个评测基准的综合实验,ASLEC-DROP相比当前最优的Local LP方法平均提升约6.28%,ASLEC-CASL平均提升约9.08%。在数学竞赛AIME系列题目上,单项提升幅度有时超过15个百分点。数据量越少的场景,效果提升越明显。
