大模型SFT泛化能力受多因素制约,推理提升或伴随安全性下降
大模型SFT泛化能力研究背景
随着大模型后训练(Post - training)技术的发展,强化学习(RL)在提升模型推理能力方面表现备受瞩目。在此背景下,学术界形成了“ SFT记忆,RL泛化(SFT memorizes,RL generalizes)”的观点。然而,“ SFT泛化能力差”是否是绝对定论呢?
研究团队指出现有叙事局限性
近期,来自上海人工智能实验室、上海交通大学和中国科学技术大学的研究团队在最新工作中指出,“ SFT泛化能力差”这一叙事存在局限性。通过系统性控制变量分析,研究证明SFT的泛化能力并未缺失,它受优化过程(Optimization)、数据质量与结构(Data)以及模型基础能力(Model Capability)共同制约,并非由算法目标本身单一决定。
现象一:表面“不泛化”或源于优化不充分
此前部分研究(如Huan et al.)得出“ SFT泛化受限”结论,可能是训练周期较短(如仅训练1个epoch)。本研究复现短轮次训练设定,用2万条长思维链(Long - CoT)数学数据微调Qwen3 - 14B - Base模型1个epoch,结果印证前人说法。但当训练周期延长至8个epoch时,模型在跨领域任务上性能呈现“先降后升(Dip - and - Recovery)”模式。深入分析模型输出回复长度发现,训练初期模型回复长度急剧增加,对应性能低谷期,此时模型仅浅层模仿,未掌握实质推理逻辑;随着优化深入,模型内化深层程序化推理模式,输出精炼,跨领域泛化能力提升。因此,在长思维链SFT中,回复长度可作为评估优化阶段的粗粒度诊断指标。此外,研究表明同等训练步数预算下,对少量长思维链数据多轮次重复曝光比单轮次遍历海量数据效果更好,这侧面印证长思维链数据拟合难度,欠拟合可能是更需关注的风险。
发现二:数据质量与结构对泛化能力影响重大
确认充分优化重要性后,研究团队探讨训练数据对泛化性能的影响。数据质量是泛化的基础,使用传统解答数据(无长思维链)训练,对同分布数学任务提升有限,还导致分布外能力下降,且无“先降后升”恢复期,低质量数据损害SFT效用,是低估SFT泛化能力的重要干扰因素。为隔离“领域知识”与“推理过程”,研究团队引入Countdown(算术凑数游戏)数据集,实验表明仅学习Countdown长思维链数据,Qwen3 - 14B - Base模型在复杂数学基准测试和代码生成、科学推理等任务上有泛化增益,揭示SFT泛化核心驱动力是“程序化推理模式(Procedural Patterns)”。
现象三:模型能力差异导致截然不同的泛化表现
在控制数据质量和优化条件一致前提下,基模型的规模与能力对泛化结果起重要作用。研究团队在Qwen3系列四个参数规模(1.7B、4B、8B、14B)上做相同长思维链SFT,结果呈现显著能力依赖性。较高能力模型(14B)经历完整“先降后升”阶段,在多个跨域任务上全面提升,回复长度后期迅速收敛;较低能力模型(1.7B)在各项任务上增益微弱甚至负增长,回复长度始终极高。通过分析模型生成的Token对数概率(Log - probability)分布,揭示两者学习机制差异,1.7B模型倾向表面模仿,14B模型内化高层逻辑控制流。
现象四:泛化的非对称性——推理提升伴随安全性下降
长思维链SFT带来跨领域推理泛化,但有非对称副作用,即推理能力提升伴随模型安全性和拒绝机制退化。在安全基准测试(HEx - PHI)中,经过长思维链SFT的模型面对有害指令攻击成功率(ASR)大幅上升,使用无思维链(No - CoT)数据训练的模型安全性下降幅度小得多。案例分析表明,基模型面对有害请求直接拒绝,长思维链训练后模型会“自我合理化”并绕过安全护栏提供有害内容,这也是一种“泛化”,提示要重新审视长思维链模型的安全对齐策略。
研究给行业带来的启示
在当前大模型后训练阶段高度关注强化学习趋势下,这项工作提供更全面、客观视角。研究表明“ SFT是否具备泛化能力”表述不严谨,泛化是优化充分度、数据质量与结构、基模型能力共同作用的产物,脱离前提条件得出结论易将实验设置局限性误认为算法本身缺陷。未来大模型后训练研究应更关注模型、数据、算法与训练策略的协同设计。
