当前位置：首页 > news >正文

Nanbeige4精读

news 2026/3/26 20:57:43

Nanbeige4-3B

来自于https://arxiv.org/pdf/2512.06266，这篇文章数据方面做的是非常扎实的，混合数据过滤技术构建23T高质量语料。遗憾的是只公开了weights，并没有公开code。具体来说有下面几个技术

PreTrain阶段

Hybrid Data Filtering

Multi-dimensional tagging：从knowdge density、reasoning density、text fluency等60个维度对数据进行了筛选和打分
Similarity-based scoring: 在相似度和数据质量上取平衡

Fine-Grained Warmup-Stable-Decay (FG-WSD)

主要在不同stages混合数据来用不同的learning rate来提升模型的效果。当退火阶段的数据质量足够高时，warmup-stable-decay（预热-稳定-效果）显著优于warmup-cosine-decay，所以把warmup-stable-decay当做基础策略。这里的Fine-Grained是在WSD基础上渐进式地选择更高质量的数据，作者给了不同的lr的表格如下：

Post Train阶段

划分成了4个阶段

Cold Start SFT

备了30 million数据，细节可以见，这个阶段AIME25到了70：

Overall Supervised Fine-Tuning

在获得初始的reason能力后，这一步针对general con-
versation and writing data (covering everyday dialogue and multiple genres), agent-style interaction data (tool use, task decomposition, planning, and execution), harder reasoning data 等通用能力进行提升，这一步长度扩到了64k。同时这部分的数据通过Solution Refinement和Cot Reconstruction这两步来优化数据：

Solution Refinement：从正确性、完整性、一致性、可执行性与安全性等标准，并将每条标准进一步细化为具体的检查点，从而实现对候选回答的细粒度评估。
Cot Reconstruction：经过多轮审慎优化与重写后，尽管最终答案的质量得到大幅提升，但原始的思维链往往会被破坏或丢失，导致难以获得既能提供高质量最终答案、又具备稳定可学习推理过程的监督信号。为解决这一问题，我们额外训练了一个链补全模型。思路是先生成一段摘要能提升后续内容的可跟随性。因此，模型会先生成一条简洁的摘要式思维链，再生成与最终答案保持一致的显式思维链。
这一步同时对MCP协议的函数调用提供了支持

Dual-level Preference Distillation（双层级偏好蒸馏）

在优化目标上，我们采用联合损失函数，将令牌级概率蒸馏与序列级 DPO 偏好损失相结合。在正样本上，我们训练学生模型，使其在每个令牌位置上匹配教师模型 Nanbeige3.5 Pro 的概率分布。在负样本上，我们同样施加蒸馏损失：教师模型为学生生成的错误回答提供参考分布，降低模型对高置信度错误令牌的概率，并提高那些被低估但合理的替代选项的概率。
这一设计增强了模型自我纠错和识别错误的能力。以间隔约束形式实现的序列级 DPO 偏好损失，会显式拉大正、负回复之间的得分差距，从而锐化决策边界并提升风格对齐效果。

多个stage的RL阶段

On-Policy Data Filtering

后一个stage选择前一个stage训练完的准确率介于10%和90%之间的数据

Multi-Stage Reinforcement Learning

在联合训练高等数学与竞赛编程数据时，模型在数学上的提升往往明显优于代码竞赛能力。所以RL过程中每个stage专注于某一个domain，设计了多个stages

针对code领域，系统首先从 GitHub 检索高质量代码片段，然后将这些片段优化或演进为独立自洽、可验证的解决方案，并生成配套的公开测试函数与私有测试函数。最后，所有候选三元组（题目、解决方案、测试函数）都会通过沙箱执行进行验证，以确保可靠性。在强化学习训练期间，这些测试函数会被执行，并根据生成的解决方案是否通过全部测试，提供二值奖励信号。

Nanbeige4.1 3B

来自https://arxiv.org/pdf/2602.13367和https://mp.weixin.qq.com/s/2aafqNOryRvbTJvC0SjWAg

SFT->Point-wise RL->Pair-wise RL

和Nanbeige4相比主要改进围绕SFT（增加了256k的stage，同时调整了数据配比） → Point-wise RL（一个prompt多次rollout） → Pair-wise RL（成对的比较增加一个Reward model）

同时优化了COT的生成，很多模型在推理任务中虽然能够给出正确答案，但思维链往往存在跳步、逻辑不连贯，甚至是事后补写解释的问题，这在小模型下更加明显。为了解决这一现象，Nanbeige4.1-3B 升级了 Solution Refinement 与 CoT Reconstruction 两套框架。前者通过增加解答迭代优化的轮次，让模型在生成初步答案后进行多轮自我修正，从而减少逻辑漏洞并提升推理完整性；后者则通过训练更强的思维链重构模型，使生成的推理路径更加忠实和一致。