当前位置：首页 > news >正文

吉林大学、阿里云等:为什么AI挑选训练数据时总爱“偏心“长句子？

news 2026/6/5 11:19:15

这项由吉林大学、阿里云计算、浙江大学及密歇根大学数学系等机构联合开展的研究，发表于2026年4月，论文编号为arXiv:2604.06834，有兴趣深入了解的读者可通过该编号查阅完整论文。

一、故事从一个"偷懒的老师"说起

假设你是一位英语老师，负责从学生的作文堆里挑出"写得最好"的作品放进教材。你定了一条规则：专找那些读起来"最顺"的文章——也就是说，你觉得读起来越流畅、越自然的，就越好。

这条规则听起来没什么问题，对吗？

然而有一天，你突然发现一件奇怪的事：你挑出来的"优秀作文"，几乎全是长篇大论，那种写了满满五六页的。短小精悍、直击要害的好文章反而统统被你忽略了。

你回头研究了一下，才发现原来自己的"读起来流畅"的直觉被愚弄了。长文章里有大量普通的流水句，把开头那一两句拗口的、费力思考的难句"稀释"了。所以整体读下来感觉挺顺，但其实藏着不少废话。而短文章里，哪怕整体写得很精彩，因为开头那几个难句占比太高，整体"流畅感"就被拖低了。

这个"偷懒老师"的困境，正是这篇论文的核心故事——只不过，那个"偷懒老师"换成了今天最先进的人工智能训练流程里的一个关键环节：**数据筛选**。

二、AI是怎么学会"长篇推理"的？

在正式讲困境之前，有必要先交代一下这个故事发生的背景。

近年来，以DeepSeek-R1为代表的一批"大推理模型"横空出世，让人们大开眼界——这些AI不再是简单地给出一个答案，而是会一步一步、洋洋洒洒地把思考过程写出来，就像一个学生解数学题时会把草稿纸写满一样。这种"把推理过程写出来"的能力，行话叫"长思维链（Long Chain-of-Thought）"，简称长CoT。

要让AI学会这种能力，目前最主流的做法是"监督微调（SFT）"：找一个更聪明的大模型，让它针对大量数学题、科学题生成解题过程，然后把这些解题过程当作教材，喂给一个"学生模型"，让它照着学。

问题在于，更聪明的大模型生成的答案并不全是高质量的。有些解题过程绕弯子、有些步骤有错误、有些推理啰嗦冗余——这些"劣质教材"如果混进去，会把学生模型带歪。于是，**如何从一大堆候选答案里挑出最好的那些**，就成了一个至关重要的问题，也催生了所谓的"推理数据选择"这个研究方向。

三、"自然度评分"——一个看起来很聪明的办法

在各种筛选数据的方法里，有一类叫做"基于自然度（naturalness-based）的方法"，它的逻辑相当直观：

你用一个学生模型去"阅读"候选数据，让它给每条数据打一个"熟悉感分数"——具体来说，就是计算这个学生模型觉得这条数据"有多像是自己会写出来的东西"。分数越高，说明这条数据越贴近学生模型的现有能力，越容易被它学进去。反之，分数太低，说明数据对学生模型来说太陌生、太难消化，学了可能适得其反。

这个"熟悉感分数"在技术上用"平均对数概率（average log probability）"来衡量。打个比方：你让AI阅读一段文字，它会在心里悄悄猜测每个词出现的概率。如果一段文字里的每个词它都猜得比较准（概率高），说明这段文字对它来说很"自然"；如果很多词它都没猜到（概率低），就说明这段文字对它来说很"陌生"。把所有词的概率取个平均值，就得到了这条数据的"自然度分数"。

这个思路听起来相当合理，而且已经有多篇论文验证了它的有效性。代表性的方法包括直接用全局平均对数概率打分的"GRACE"方法，以及更精细地把推理过程分段、逐段计算概率再平均的"Local LP"方法。

然而，这篇论文的研究团队在实际使用这类方法时，发现了一个令人不安的现象。

四、"偏心"的选手——步长混淆问题

研究团队用这些"自然度"方法，对一批AI生成的推理数据进行了筛选实验。他们用四个强大的推理模型（包括QwQ-32B、Qwen3-32B、DeepSeek-R1-Distill-Qwen-32B和gpt-oss-120b）针对800道数学题各生成了5个答案，共16000份候选数据，然后用"自然度"方法从中挑选5份最佳答案。

筛选完成后，他们把"被选中的数据"和"未被选中的数据"分别画出了分布图——这里重点关注的是"步长（step length）"，也就是推理过程中**每一步推理包含多少个词**。

结果让人大吃一惊：**无论用哪种自然度方法，被选中的数据里，每步推理的篇幅都明显比未被选中的数据长得多**。未被选中的数据，步长大多集中在30个词左右；而被选中的数据，步长的分布整体向右偏移，充斥着每步六七十个词甚至更长的推理步骤。

而且，这个"偏心"现象在GRACE、Local LP、Min Entropy（最小熵）、Min Perplex（最小困惑度）四种方法里都一样明显。这说明这不是某一种方法的偶然失误，而是"自然度"这类方法的系统性偏差。

研究团队把这个现象命名为**"步长混淆（step length confounding）"**——意思是，"自然度"这个指标被推理步骤的长度"混淆"了，它实际上选的是"步子长的数据"，而不是"质量高的数据"。

五、为什么会这样？抽丝剥茧找原因

发现了问题，研究团队没有满足于此，而是继续追问：这个"偏心"现象背后的真正原因是什么？

他们首先做了一个实验：把所有推理步骤按照步长分组（10个词一步、20个词一步……直到100个词以上一步），然后计算每组步骤的平均对数概率。

结果非常清晰：**步长越长，这一步的平均对数概率就越高**。而且这个规律在四个不同的大模型里都成立，是一个稳定的现象，不是偶然。

那么，为什么长步骤的平均概率会更高呢？研究团队仔细查看了具体的词语概率数据，注意到了一个关键细节：**每一步推理的第一个词，概率总是特别低**。

这其实不难理解。在推理过程中，每一步的开头往往是一个"岔路口"。比如，这一步的开头可以是"因此……"，可以是"但是……"，可以是"换个角度……"，可以是"我们知道……"，可以是"等等……"——有很多种可能的走向，AI在这里面临较大的不确定性，所以任何一个具体词的概率都相对低。行话叫"高熵（high entropy）"，通俗地说就是"岔路口上的选择太多，不好猜"。

但是，在第一个词确定之后，后续的词就顺水推舟了。"因此，我们得出……"后面跟什么，基本上就那么几种说法，AI猜起来轻松得多，概率自然高。

现在把这两点结合起来看——

对于一个**短步骤**（比如只有8个词），如果第一个词的对数概率是-5.48（非常低），而后面7个词的概率都比较高，那么这8个词平均下来，分母是8，那个特别低的-5.48被8个数平均，拉低了整体均值，均值可能只有-2.15左右。

对于一个**长步骤**（比如有67个词），同样第一个词的对数概率很低，但后面66个高概率词把这个低分"稀释"了。分母是67，那个低分只占1/67，对均值的影响微乎其微，最终均值可能高达-0.41。

这就是研究团队在论文里展示的真实数据案例：步长8的短步，平均概率-2.15；步长67的长步，平均概率-0.41。差距悬殊，但根本原因不是长步骤质量更好，而是第一个词的低概率被稀释了。

归根结底，**步长混淆的元凶，就是每步推理开头那个"高熵第一词"**。它概率低，在短步骤里占比大，就把整体分数拉低；在长步骤里占比小，整体分数就被托高。

六、两种解法：一刀切还是精准手术？

找到了病因，研究团队设计了两种解决方案，统称为"ASLEC（Alleviating Step Length Confounding，缓解步长混淆）"。

第一种方案叫**ASLEC-DROP**，思路非常直接——既然每步第一个词的概率是罪魁祸首，那就在计算平均概率时，把每步的第一个词直接丢掉不算。这就像你在评分时说："第一句话不算，从第二句开始评分。"剩下的词的平均概率，就不会再受到第一个词低概率的干扰，自然也就消除了对步长的偏好。

这种方法简洁高效，没有任何额外的计算负担。但它也有一个明显的代价：第一个词本身也携带信息，比如推理转向的选择，体现了AI的思维灵活性和推理方向感。把它直接扔掉，虽然消除了偏差，但也丢失了信息。

于是有了第二种方案——**ASLEC-CASL**，这是一种更"精准的手术"。它的灵感来自统计学和因果推断领域的"去混淆（debiasing）"技术。

具体操作是这样的：对所有候选数据，同时计算三个量——第一个词的平均对数概率、其余词的平均对数概率，以及"第一个词占所有词的比例"（也就是步长的倒数，步越长这个比例越小）。然后用线性回归分析，建立一个方程，把"全局平均对数概率"拆解成这三部分的线性组合。

通过这个方程，研究团队能精确估算出"第一个词比例"这个混淆因子对整体分数的具体影响力——用希腊字母γ表示。最后，在计算最终的筛选分数时，把这个混淆影响直接从原始分数里减去，得到一个"去偏后的分数"。

打个比方：ASLEC-DROP就像裁判说"不算第一棒的成绩"；而ASLEC-CASL则是裁判先统计出"第一棒对总成绩的系统性影响是多少"，然后在所有选手的总成绩里扣掉相应的分数，让第一棒的影响回归合理水平。前者简单粗暴，后者更加精细，保留了第一个词携带的有用信息，只是消除了它带来的偏差。

七、实验数据说话：效果到底怎么样？

研究团队在两个大型推理数据集上进行了系统测试：一个是包含800道精心筛选数学题的LIMO-v2数据集，另一个是来自英伟达的大规模AceReason-1.1-SFT数据集（从中随机抽取了1万道数学题）。他们用四个不同大小、不同系列的学生模型（Qwen3-4B-Base、Qwen3-8B-Base、Qwen3-4B-Instruct、Qwen2.5-7B-Instruct）进行训练，并在五个评测基准上打分：数学竞赛AIME24、AIME25，数学题库MATH500，数学奥林匹克题库OlympiadBench，以及科学推理基准GPQA。

结果相当令人振奋。以LIMO-v2数据集为例，Qwen3-4B-Base这个学生模型，用GRACE方法筛选的数据训练后，在AIME24上的准确率只有16.66%；用Local LP方法筛选的数据训练后提高到19.16%；而用ASLEC-DROP训练后跳升到30%，用ASLEC-CASL则进一步达到31.66%。在另一个测试集AIME25上，改善幅度同样显著：GRACE对应33.33%，Local LP对应36.66%，ASLEC-DROP达到43.33%，ASLEC-CASL更高达46.66%。

把所有模型、所有数据集、所有测试集的成绩综合平均来看，ASLEC-DROP比当前最优的Local LP方法平均提升了6.28%，而ASLEC-CASL则提升了9.08%——这是相当大的差距，尤其考虑到这些都是高难度的竞赛题目，每一个百分点都来之不易。

更有意思的是，研究团队还观察到：两种方法在数据量较小的情况下（比如LIMO-v2只有800题，而AceReason有1万题）效果提升更加明显。这说明数据越少、越珍贵，筛选质量的影响就越大，去除偏差带来的收益也越显著。

研究团队还专门验证了方法确实解决了"步长混淆"问题本身：用ASLEC-DROP和ASLEC-CASL筛选出来的数据，其步长分布与未被选中的数据之间，差异已经非常小——不再像原来那样选出的数据清一色是长步骤，而是覆盖了更多样化的步长范围。

八、数字背后的深意：线性回归告诉我们什么

ASLEC-CASL方法里，那个拟合出来的线性回归模型，其参数本身也非常有信息量。

研究团队在LIMO-v2数据集上，分别对四个来源模型（QwQ-32B、Qwen3-32B、DS-Qwen-32B、gpt-oss-120b）的生成数据各自拟合了一套参数。几个关键发现值得细说。

首先是那个混淆因子的系数γ。综合所有数据的整体拟合结果，γ约为-0.680。这意味着：如果两条数据之间，"第一个词占所有词的比例"相差0.05（比如一条是10%，另一条是15%），那么这个差距导致的整体概率差异，相当于每个词的概率降低了约3.34%。

在四个来源模型中，gpt-oss-120b生成的数据对应的γ值最高，达到了-1.284——这说明这个模型生成的数据里，步长混淆问题最为严重，第一个词的低概率对整体评分的拉低效应最大。

另一个值得注意的参数对比是β?和β?，分别对应"第一个词概率"和"其余词概率"对整体分数的贡献权重。所有模型里，β?都远远小于β?——以Overall整体结果为例，β?约为0.066，而β?约为0.944。这进一步从数学上确认了：在计算整体自然度分数时，第一个词的权重本来就不应该那么高，现有方法隐含地给了它过高的影响力，而ASLEC-CASL通过去偏操作修正了这一点。

最后，残差ε始终保持在接近0的水平，说明线性回归的拟合误差很小，去偏操作的精度是有保障的。

九、总响应长度的干扰——一个意外的插曲

研究团队还顺带研究了另一个相关问题：总响应长度（即整条推理链的总词数）是否也会影响自然度筛选？

有趣的是，实验发现答案是"是，但影响方向和步长正好相反，而且影响程度小得多"。

从数据来看，响应越长，其末尾部分的词概率反而越高——因为随着推理的展开，后续内容越来越确定，AI越来越"知道"自己在写什么，预测准确率升高。所以如果纯粹按总响应长度来分析，应该是长响应更容易被选中。

然而实际观察到的结果是：被选中的数据平均总长度（约9800词）反而比未被选中的（约15400词）短得多！这个看似矛盾的现象，其实正是步长混淆在作怪——步长混淆的效果如此强烈，以至于彻底压过了总响应长度本身的影响，把选择方向反转了。

研究团队还用回归分析定量证明了这一点：在方程里同时加入步长混淆因子和总长度因子后，总长度的系数γ?大约在10??到10??量级，比步长混淆因子γ小了大约两个数量级。在实际效果上，是否把总长度偏差也一起去掉，对最终模型性能几乎没有影响。

这个发现也与其他研究的结论一致：更长的推理过程通常对模型学习更有帮助，总响应长度带来的偏差本身可能还有一定正向作用，强行去掉反而可能得不偿失。

十、收敛过程：慢热还是快进

研究团队还展示了一组收敛分析图，比较了用GRACE方法选出的数据和用ASLEC方法选出的数据在训练过程中损失值（可以理解为"学习错误率"）的下降曲线。

结果显示，用GRACE数据训练的模型，损失值始终比用ASLEC数据训练的模型高——也就是说，"错误率"一直更高。而ASLEC选出的数据，让模型收敛到了更低、更好的损失值。

这从另一个角度证明了：ASLEC选出的数据，对学生模型来说确实"更自然、更贴合"——不是因为步长更长，而是因为质量更高，更适合学习。

---

说到底，这项研究讲的是一个"打分规则被钻了空子"的故事。AI训练数据的筛选，本来是要挑质量高的，结果却无意中挑了步子长的。根本原因是一个隐藏的技术细节：每步推理开头那个词的低概率，在长步骤里被稀释了，让长步骤的整体评分虚高。

研究团队通过两种方案修正了这个偏差——一种是直接把开头那个词的分数丢掉不算，另一种是用统计方法精确量化并消除它的影响。测试结果表明，这两种方案都能让训练出来的AI模型在数学竞赛题上表现更好，尤其是在数据量有限的情况下，提升幅度相当显著。

这个发现对今天AI大模型训练的实际流程有直接的参考价值——当我们在挑选训练数据时，评分标准本身是否被某些隐藏因素干扰，是一个值得认真检查的问题。

有兴趣深入了解技术细节的读者，可以通过arXiv编号2604.06834查阅完整论文，其中还附有开源代码和数据集的获取方式。

---

**Q&A**

Q1：步长混淆问题是什么，为什么会影响AI训练数据的筛选质量？

A：步长混淆是指在用"自然度"方法筛选AI推理训练数据时，筛选结果系统性地偏向每步推理词数更多的数据，而不是质量更高的数据。根本原因在于，每步推理的第一个词由于面临多种可能的分叉选择，概率天然偏低。在短步骤里这个低概率词占比大，会拖低整体平均分；在长步骤里它被后续大量高概率词稀释，整体均值反而被托高。于是筛选方法误把"长步骤"当成"高质量"。

Q2：ASLEC-DROP和ASLEC-CASL两种方法有什么区别？

A：ASLEC-DROP的做法是计算平均概率时直接丢掉每步推理的第一个词，简单粗暴，没有额外计算负担，但会损失第一个词本身携带的推理方向信息。ASLEC-CASL则通过线性回归模型，精确估算第一个词比例对整体分数的系统性影响，然后从原始分数中减去这部分影响，既消除了偏差，又保留了第一个词的有用信息。实验结果显示ASLEC-CASL整体表现优于ASLEC-DROP。

Q3：ASLEC方法在实际训练中能提升多少效果？

A：根据在LIMO-v2和AceReason-1.1-SFT两个数据集上、四个不同大小的学生模型、五个评测基准的综合实验，ASLEC-DROP相比当前最优的Local LP方法平均提升约6.28%，ASLEC-CASL平均提升约9.08%。在数学竞赛AIME系列题目上，单项提升幅度有时超过15个百分点。数据量越少的场景，效果提升越明显。

查看全文

http://www.jsqmd.com/news/659405/