加州大学圣地亚哥分校AI训练师:教大模型“挑食“,效率飙升三倍
这项由加州大学圣地亚哥分校(University of California, San Diego)研究团队完成的工作,以预印本形式发布于2026年6月18日,论文编号为arXiv:2606.19750v1,归类于计算机学习领域(cs.LG)。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
当你第一次学骑自行车,教练会怎么教你?大概率不会让你一上来就冲下陡坡,也不会让你反复练习站在车旁边——那两种都没什么意义。真正好的教练会让你练那些"稍微有点难但还能做到"的动作,比如在停车场慢慢骑直线,然后尝试转弯。这背后有一条朴素的道理:难度刚刚好的练习,才最有价值。
大型语言模型(也就是像ChatGPT这类AI)的训练,其实面临着完全相同的困境。研究团队发现,当你给AI出一道"太简单"的题,它每次都答对,学不到任何新东西;出一道"太难"的题,它每次都答错,同样毫无收获。真正有价值的题目,是那些AI有时能答对、有时答错的题——这类题能给AI提供最丰富的学习信号。问题是,一个包含数万道题目的训练数据集里,这类"黄金难度"的题目往往只是其中一小部分,而且随着AI越来越聪明,哪些题属于这个区间也在不断变化。
加州大学圣地亚哥分校的研究团队针对这个问题提出了一套全新的解决方案,名叫"贝叶斯流形课程"(Bayesian Manifold Curriculum,简称BMC)。这套方案的核心思路并非只盯着"难度刚好"的题目,而是同时考虑三件事:这道题现在能教给AI多少东西(生产力)、训练过程中有没有覆盖足够多样化的题目类型(多样性)、以及这道题和最终想要考核AI的测试题有多相关(效用)。这三个维度共同构成了一个更完整的"训练质量"图景,而不是简单地把所有问题压缩成一个难度分数。
一、当AI遇到"吃什么才长身体"的问题
要理解这项研究解决了什么问题,先得理解现有AI训练的一个核心机制。目前训练大型语言模型推理能力,主流方法叫做"组相对策略优化"(GRPO、DAPO、GSPO等都属于这一类)。简单说,对同一道题,AI会给出好几个不同的答案,然后根据这些答案之间的好坏对比来调整自己。关键在于:如果AI对同一道题的所有答案都是对的,或者都是错的,那这道题对训练毫无贡献——因为没有对比,就没有信号,就什么都学不到。
现有的解决办法叫做"动态采样"(Dynamic Sampling),思路是把"没用的题"筛掉,只保留那些有学习信号的题来训练。这个方法确实有效,但代价是要花大量时间反复筛题,等于多跑了几轮才能凑够一批有价值的题目,训练时间因此大幅增加。
更深层的问题在于,现有方法都把每道题当成独立个体来看待——题A和题B之间没有任何关联,学了A对B没有参考价值。但现实中,"代数方程题"和"函数题"之间显然有共通之处,AI学会了解代数方程,对做函数题多少有帮助。忽视这种题目之间的内在联系,意味着大量可以共享的信息被白白浪费了。
此外,还有一个常被忽视的问题:训练数据集本身往往是不均衡的。以数学题为例,一个数据集可能有80%是英文题,只有20%是中文题。如果AI的训练只追求"当前最有学习价值的题目",很可能会一直往英文数学题里钻,因为那里题目多,容易找到"难度刚好"的题。最终AI在英文数学上进步飞快,但中文数学就被晾在一边,在相关测试上表现很差。这就是研究团队所说的"数据集不均衡"与"前沿不均衡"叠加造成的问题。
研究团队意识到,仅凭"难度"这一个维度来指导训练,就像一个厨师只用盐来调味——有时候管用,但缺少了酸甜苦辣的搭配,很难做出真正好的料理。
二、给AI的题库画一张"地图"
BMC的第一步,是为训练题库建立一张内部地图,研究团队称之为"潜在任务树"(Latent Task Tree)。
这里有个关键洞见:AI在处理不同题目时,大脑(也就是其内部神经网络)会产生不同的"思考模式"。通过检查AI在处理每道题时内部中间层的激活状态(一组高维数字向量),可以判断两道题在AI"眼中"有多相似。如果两道题的激活状态很接近,说明AI用类似的思路来处理它们;如果相差很远,说明这两类题对AI而言是完全不同的认知挑战。
研究团队用这些"思考模式"的相似度,把所有题目组织成一棵从粗到细的层级树。整个过程是递归进行的:先用PCA(一种把高维数据压缩的数学工具,可以理解为把一张复杂的3D地图展平成2D,同时保留最重要的地形信息)降维,然后用UMAP(一种保留局部邻居关系的映射方法)进一步提取结构,最后用HDBSCAN(一种不需要预先指定分组数量、能自动发现大小不一的群落的聚类算法)找出自然群落。每发现一个群落,就递归地对这个群落内部继续做同样的操作,直到某个子区域"看起来已经足够简单、不需要再细分"为止。
判断"足够简单"的方法叫做"图表测试"(Chart Test),借鉴了数学中流形理论的思想:一个全局复杂的空间,在局部看来应该像一个简单平坦的区域。如果某个子集的内在维度已经很低、内部连通性也很好,就说明这个子集可以被当作一个"原子单位",不需要再切分了。停止递归还有两个辅助条件:HDBSCAN找不到合理的子群落,或者子群落太小(低于最小样本比例阈值)。
以DAPO-Math-17K这个数学训练数据集为例,用Qwen3-8B-Base模型构建出来的任务树有50个节点,最大深度为4层。根节点包含所有题目,往下分出"英文题(77.85%)"和"中文题(18.80%)"等高层节点,再往下则是"欧几里得几何"、"数论"、"代数方程组"等更细粒度的分类,最细处能区分"模运算"、"数字问题"、"最小整数"等具体题型。
这棵树并非人工标注的——没有人告诉算法"这道题是几何题"——所有分组完全来自AI自身对题目的内部感知。有趣的是,人工事后检查这些分组时,会发现它们往往和人类的直觉分类高度吻合,甚至在某些细粒度上比人工分类更精准。
同样的方法被应用于编程数据集、医学问答数据集、法律数据集、金融数据集、多模态几何题数据集等多个领域,都能产生有意义的层级结构,验证了这套方法的通用性。整棵树的构建时间相对于整个训练过程来说非常短暂——以DAPO-Math-17K为例,构建时间约12分钟,而整个训练需要25小时,树的构建仅占总时间的0.8%。
三、一个在"题目地图"上做决策的智能调度器
有了这张题目地图,BMC的第二步是在这张地图上做智能的采样决策。
研究团队把这个过程比作一群"智能体"在树上向下爬行。每次要组成一批训练题目时,就派出和批量大小相同数量的智能体,每个智能体独立从树根出发,根据当前对各个子树的"期望价值"信念,选择往哪个方向走,最终走到某片叶子(即一道具体的题目)。
每个智能体在树的每个节点处,都会对该节点的所有子节点做一次带随机性的抽签:从每个子节点当前的高斯分布信念中各采一个样本值,然后选择样本值最高的那个子节点继续往下走。这种方法在统计学里叫做"汤普森采样"(Thompson Sampling),是一种经典的在"探索新领域"和"利用已知最优"之间取得平衡的策略。在树的层级结构下使用它,就叫做"层级汤普森采样"(Hierarchical Thompson Sampling)。
这种设计有一个精妙的效果:当某个子树的期望价值明显高于其他子树时,多个智能体会不约而同地走进那个子树,集中训练资源;当多个子树的期望价值差不多时,不同智能体会分散到不同子树,保证批次内的多样性。这就自动实现了"重点突破"和"广泛覆盖"之间的动态平衡,无需人工设置任何权重。
每次训练完一批题目、获得AI的实际表现数据之后,BMC会做两件事来更新这张地图上的"信念"。
第一件事是更新各道题自身的"预期学习价值"估计。更新规则引入了一个叫做"惊喜度"的概念——新观测值与当前预期值的偏差,除以当前不确定度,得到一个标准化的"意外程度"。惊喜度越高,说明当前信念越不可靠,就越应该多参考新数据而少依赖旧历史;惊喜度低时,则保留更多历史积累的估计。此外,如果一道题很久没被抽到,它的不确定度会随时间逐渐增大(通过一个叫做"陈旧度"的计数器来追踪),这样调度器就会在适当时候重新去关注它,避免"遗忘了它可能已经变难或变容易了"。
第二件事是把单道题的更新沿着树向上传播。假设某道"模运算"题的学习价值上升了,调度器不仅更新这道题本身,还会更新"数论"节点、再更新"英文题"节点,一路向上传播。这种传播用的是一种叫做"经验贝叶斯"(Empirical Bayes)的方法:父节点的信念等于所有子节点信念的精度加权平均值。如果各子节点的信念比较一致,父节点就比较有把握;如果子节点之间差异很大(说明这个子树内部情况复杂、异质性强),就额外增加一个"异质性项"(借鉴了医学荟萃分析中的DerSimonian-Laird方法),让父节点信念变得更加保守、不那么自信,从而在顶层采样时不会因为某个子树里少数几个好样本就过度集中资源。
这套"观测一道题、更新整棵树"的机制,使得BMC能够从有限的直接观测中推断出更大范围内的学习价值分布——不需要把每道题都亲自采样一遍,就能对整个题目空间有一个合理的全局判断。
四、三个维度的拉锯战:生产力、多样性和效用
研究团队用了大量实验来验证BMC,并提出了一个非常重要的发现:评价一个训练采样策略,不能只看一个指标,而需要同时审视三个维度,而这三个维度之间并不总是一致的。
在训练效率(生产力)方面,研究团队跟踪了几个关键指标。"有效比率"代表每批次中真正提供了学习信号的题目占比(也就是有些题AI的表现不全对也不全错的比率)。"平均奖励方差"衡量每道题里AI给出的多个答案之间的分歧程度,越高意味着学习信号越强。在Qwen3-8B和Qwen3-4B两个模型、GSPO和GRPO两种优化算法的实验中,BMC和"仅难度"基线(Difficulty Only,即只考虑题目难度、不考虑题型结构的汤普森采样)都将有效比率比均匀采样提升了约40%,而训练墙钟时间与均匀采样相当,远低于动态采样。动态采样虽然有效比率最高(接近100%,因为它强制筛选到全部有效才停止),但耗时是其他方法的1.5到2倍。
在多样性和信息共享方面,研究团队设计了两个诊断指标。"稀有度加权曝光"衡量训练批次里有多少题目落在数据集中较少见的题型区域,数值越高说明对稀有题型的覆盖越多。结果显示,BMC的稀有度加权曝光介于"仅树"(Tree Only,只有结构、没有自适应信念更新的消融实验)和"仅难度"之间——"仅树"因为完全不考虑学习价值、均匀分配探索资源,所以对稀有题型覆盖最多;"仅难度"因为全力追求学习价值、不在乎题型分布,对稀有题型覆盖最少;BMC则在两者之间取得平衡。
"结构增益"则衡量任务树的分组能在多大程度上解释学习信号的分布规律——如果同一子树里的题目学习价值相近,说明树的结构和AI内在的学习难度分布是对齐的。研究发现,对于BMC和"仅难度"方法,任务树所解释的学习信号变异程度都是随机基线的5到10倍甚至更多,证明AI内部对题目的组织确实和学习难度高度相关——这恰恰是BMC能够通过树来传播信息的理论基础。
在评估表现(效用)方面,情况最为复杂。研究团队用Qwen3-8B-Base模型在六个不同基准上做了测试,包括AIME2025、AIME2024(竞赛级英文数学)、AMC2023(竞赛预选级英文数学)、MATH500(较宽泛的英文数学)、CNMO24和CCEE24(中文数学)以及GPQA-Diamond(研究生级科学题,完全超出训练分布)。
没有任何一种方法在所有基准上都是最优的。动态采样在英文数学上表现很好,但在中文数学和GPQA-Diamond上反而输给了均匀采样,原因在于其批次构建方式(先到先得地填满批次)在数据集不均衡时会系统性地跳过中文题——当批次已经被大量有学习价值的英文题填满时,还没来得及进入批次的有学习价值的中文题就被推迟到下一轮,长期累积就形成了严重的中文题曝光不足。"仅难度"方法虽然避免了这个跳题问题,但因为全局地从所有题目中挑难度合适的题,仍然偏向于数据集里占多数的英文题。BMC在GPQA-Diamond上的表现特别突出,超过所有其他方法,这与其在训练过程中覆盖了更多稀有题型(包括图表题、理科题等)有关——这些题目虽然和测试题不完全相同,但AI在处理多样化题型时培养出的泛化能力,在面对完全陌生领域的科学推理时反而展现出来了。
研究团队将这一现象称为"评估死区"(evaluation deadzone):BMC为某些题型提供了很强的学习信号,但这些题型对应的能力并没有被标准英文数学测试所衡量。这和"梯度死区"(gradient deadzone,指题目没有学习信号)是完全不同的问题——不是学不到东西,而是学到的东西没有被评估到。
五、给训练目标装一个"导航仪"
在观察到生产力、多样性和效用三个维度并不总是对齐之后,研究团队自然而然地提出了一个问题:能不能主动地把训练方向引导到"更接近我想要测试的那类题"?
于是他们设计了BMC的扩展版本BMC-T(T代表Target,目标)。它的核心思路是:把一批"目标样例"(比如想要提升的测试题,或者代表某种能力的参考题集)也放进任务树的构建过程中,通过比较训练题和目标样例在树中的分布,为每个子树赋予一个"效用得分"——子树里目标样例比例越高,就给这个子树更高的采样优先级。在汤普森采样下树时,把这个效用得分叠加到标准的学习价值估计上,就形成了一个"既追求学习价值、又偏向目标相关区域"的综合得分。
研究团队用两个不同的目标分布来测试BMC-T:一个目标设为AIME2024(只盯着竞赛数学),另一个目标设为所有测试基准的混合(均衡地提升各方面)。结果非常清晰:以AIME2024为目标时,模型在AIME类竞赛题上的提升最为显著;以全混合为目标时,中文数学等其他基准的表现得到了更均衡的提升,整体表现更为全面。两种目标设置下,训练生产力(有效比率、奖励方差、训练集准确率)几乎完全相同。
这个实验证明了一件重要的事:效用不等于生产力。如果训练AI时学到的所有东西都对所有测试有同等价值,那么换目标方向不应该改变任何结果——但实验明确地证明了改变了。这意味着不同题型确实对不同能力的贡献是不同的,而通过任务树的结构,可以用相对粗略的"题目在潜在空间中的距离"来近似估计这种贡献,并用它来引导训练方向。
研究团队还注意到一个颇具启发性的边界情形:GPQA-Diamond测试题(研究生级科学题)在任务树中被放在远离所有数学训练题的高层节点上,这个节点下没有任何可以被采样的训练题。因此,如果把GPQA-Diamond设为BMC-T的目标,也找不到任何可以叠加效用得分的子树,结果BMC-T退化为标准BMC。而标准BMC在GPQA-Diamond上的良好表现,就来自于其广泛的多样性覆盖——当没有近邻的训练题可以直接对准目标时,最好的策略就是尽可能覆盖更多样化的题型,希望通过泛化的方式"够到"那个遥远的目标。
六、稳定性测试:树会随着AI进化而"失效"吗
任务树是在训练开始前一次性构建的,此后保持固定。但AI在训练过程中会不断变化,它对题目的内部感知会不会也随之漂移,导致一开始构建的树越来越"失真"?
研究团队专门为此做了结构漂移分析。他们比较了训练前后用同一模型构建的任务树,以及用不同发展阶段模型对同一数据集构建的树,发现树的结构确实会有变化,但变化模式并不一致。对于Qwen3-8B,训练后的树最大宽度有所增加(从16增加到20),最大分支因子也增大(从13增加到17);而对于编程模型DeepCoder,训练后的树反而略微收缩;对于Guru-7B,树变得更深、层次更多但每层更窄。这说明RL训练确实会改变AI的内部组织方式,但没有统一的方向。
研究团队还实验了一种"定期重建树"的变体,每训练100步就重新构建一棵树。结果显示,与固定树相比,性能差异非常微小——在某些基准上略有提升,在另一些上略有下降。研究团队由此得出结论:在目前实验的训练周期内,固定树是一个足够好的近似,不需要为了追求完美的结构同步而付出额外的计算代价。
七、为什么要用AI自己的"思维"来分题,而不是请外部专家帮忙
研究团队在论文中专门讨论了为什么选择用模型自身的内部表示来构建任务树,而不是借助外部手段。
外部手段有很多选项:可以用专门的语义嵌入模型(比如专为文本相似度训练的检索模型)来聚类题目;可以请大型前沿模型给每道题打标签或分类;可以用稀疏自编码器来提取模型的内部特征并以此聚类;还可以训练一个专门预测"这道题对AI有多少价值"的评估模型。
研究团队认为,对于课程学习调度来说,最重要的相似性不是"人类眼中的题目相似性",而是"被训练模型眼中的题目相似性"。同一道代数题的中文版和英文版,对人类而言几乎完全相同,但对某个阶段的AI来说可能是完全不同的认知挑战。外部嵌入模型会把两者归为同类;但如果被训练模型在处理两者时激活了不同的内部模式,那它们就应该在课程调度中被区别对待。使用模型自身的中间层表示,确保了任务树与"被训练模型如何组织题目空间"保持一致,而非与"人类或另一个模型如何理解题目"保持一致。
此外,使用自身表示还有一个实用优势:不需要引入任何额外组件。训练任何大型语言模型都需要做前向传播来生成答案,提取中间层的激活向量只需在这个过程中顺便保存一些数字,不需要额外的API调用、不需要标注工作、不需要训练第二个模型。这让BMC可以直接插入现有的任何训练框架。
归根结底,这项研究的核心贡献可以这样理解:训练AI,不只是找到"刚好够难"的题目,而是要绘制AI内心的题目地图,理解不同题目之间的联系,在保证训练效率的同时覆盖足够宽广的能力版图,并且在需要时能够把资源精准地引导向最终想要提升的方向。这三件事——学得多、学得全、学得对——缺一不可,而过去的方法往往只顾了第一件。
对于普通人来说,这项研究意味着未来你使用的AI助手可能会更擅长处理各种类型的问题,而不只是在某个特定类型上特别厉害。也意味着训练一个AI所需的计算资源和时间可以更少,因为每一次训练迭代都能"物尽其用",不会把宝贵的算力浪费在学不到东西的题目上。而研究所提出的这套框架,因为只需要模型自身就能运行,理论上可以应用于任何语言、任何领域、任何模态的AI训练。
Q&A
Q1:贝叶斯流形课程(BMC)和普通的AI课程学习有什么本质区别?
A:普通课程学习把每道训练题当成独立的,只根据"这道题现在难不难"来决定要不要训练。BMC则先用AI自己处理题目时的内部状态,把所有题目组成一棵层级树,然后在这棵树上做决策。树里相邻的题目共享信息,学了一道题会影响对附近题目的预期,并且BMC同时考虑难度(生产力)、题型覆盖(多样性)和与目标测试的相关性(效用)三个维度,而不是只看难度。
Q2:训练AI时为什么不能一直选最难的题来练,这样不是进步最快吗?
A:难度刚好居中的题才最有学习价值——太难的题AI每次都答错,组内答案全部失败,无法形成有效的对比信号,AI学不到任何东西;太容易的题每次都答对,同样没有对比,也是白费功夫。只有那些AI有时对有时错的题,才能为训练提供真正有意义的反馈。此外,只追最难的题会导致题型覆盖严重不均,AI在某些题型上能力很强,但其他题型几乎没有练习机会。
Q3:BMC-T中的目标分布是不是意味着把测试题也用来训练了,这样算作弊吗?
A:不算。目标样例只用来决定"优先训练哪些类型的题",它们本身不参与训练,AI看不到这些题的答案,也不会拿它们来做梯度更新。就像一个学生知道期末考试偏重几何,于是多做几何练习题——这不算作弊,只是有针对性地分配练习时间。当然,如果把BMC-T用于严格的学术对比实验,需要把目标集和最终测试集分开,用一组题引导训练方向,用另一组题做最终评估,以确保评估的客观性。
