当前位置: 首页 > news >正文

Nanbeige4精读

Nanbeige4-3B

来自于https://arxiv.org/pdf/2512.06266,这篇文章数据方面做的是非常扎实的,混合数据过滤技术构建23T高质量语料。遗憾的是只公开了weights,并没有公开code。具体来说有下面几个技术

PreTrain阶段

Hybrid Data Filtering

  • Multi-dimensional tagging:从knowdge density、reasoning density、text fluency等60个维度对数据进行了筛选和打分
  • Similarity-based scoring: 在相似度和数据质量上取平衡

Fine-Grained Warmup-Stable-Decay (FG-WSD)

主要在不同stages混合数据来用不同的learning rate来提升模型的效果。当退火阶段的数据质量足够高时,warmup-stable-decay(预热-稳定-效果)显著优于warmup-cosine-decay,所以把warmup-stable-decay当做基础策略。这里的Fine-Grained是在WSD基础上渐进式地选择更高质量的数据,作者给了不同的lr的表格如下:

Post Train阶段

划分成了4个阶段

Cold Start SFT

备了30 million数据,细节可以见,这个阶段AIME25到了70:

Overall Supervised Fine-Tuning

在获得初始的reason能力后,这一步针对general con-
versation and writing data (covering everyday dialogue and multiple genres), agent-style interaction data (tool use, task decomposition, planning, and execution), harder reasoning data 等通用能力进行提升,这一步长度扩到了64k。同时这部分的数据通过Solution RefinementCot Reconstruction这两步来优化数据:

  • Solution Refinement: 从正确性、完整性、一致性、可执行性与安全性等标准,并将每条标准进一步细化为具体的检查点,从而实现对候选回答的细粒度评估。
  • Cot Reconstruction: 经过多轮审慎优化与重写后,尽管最终答案的质量得到大幅提升,但原始的思维链往往会被破坏或丢失,导致难以获得既能提供高质量最终答案、又具备稳定可学习推理过程的监督信号。为解决这一问题,我们额外训练了一个链补全模型。思路是先生成一段摘要能提升后续内容的可跟随性。因此,模型会先生成一条简洁的摘要式思维链,再生成与最终答案保持一致的显式思维链
  • 这一步同时对MCP协议的函数调用提供了支持

Dual-level Preference Distillation(双层级偏好蒸馏)


在优化目标上,我们采用联合损失函数,将令牌级概率蒸馏序列级 DPO 偏好损失相结合。在正样本上,我们训练学生模型,使其在每个令牌位置上匹配教师模型 Nanbeige3.5 Pro 的概率分布。在负样本上,我们同样施加蒸馏损失:教师模型为学生生成的错误回答提供参考分布,降低模型对高置信度错误令牌的概率,并提高那些被低估但合理的替代选项的概率。
这一设计增强了模型自我纠错和识别错误的能力。以间隔约束形式实现的序列级 DPO 偏好损失,会显式拉大正、负回复之间的得分差距,从而锐化决策边界并提升风格对齐效果。

多个stage的RL阶段

On-Policy Data Filtering

后一个stage选择前一个stage训练完的准确率介于10%和90%之间的数据

Multi-Stage Reinforcement Learning

在联合训练高等数学与竞赛编程数据时,模型在数学上的提升往往明显优于代码竞赛能力。所以RL过程中每个stage专注于某一个domain,设计了多个stages

针对code领域,系统首先从 GitHub 检索高质量代码片段,然后将这些片段优化或演进为独立自洽、可验证的解决方案,并生成配套的公开测试函数与私有测试函数。最后,所有候选三元组(题目、解决方案、测试函数)都会通过沙箱执行进行验证,以确保可靠性。在强化学习训练期间,这些测试函数会被执行,并根据生成的解决方案是否通过全部测试,提供二值奖励信号。

Nanbeige4.1 3B

来自https://arxiv.org/pdf/2602.13367和https://mp.weixin.qq.com/s/2aafqNOryRvbTJvC0SjWAg

SFT->Point-wise RL->Pair-wise RL

和Nanbeige4相比主要改进围绕SFT(增加了256k的stage,同时调整了数据配比) → Point-wise RL(一个prompt多次rollout) → Pair-wise RL(成对的比较增加一个Reward model)

同时优化了COT的生成,很多模型在推理任务中虽然能够给出正确答案,但思维链往往存在跳步、逻辑不连贯,甚至是事后补写解释的问题,这在小模型下更加明显。为了解决这一现象,Nanbeige4.1-3B 升级了 Solution Refinement 与 CoT Reconstruction 两套框架。前者通过增加解答迭代优化的轮次,让模型在生成初步答案后进行多轮自我修正,从而减少逻辑漏洞并提升推理完整性;后者则通过训练更强的思维链重构模型,使生成的推理路径更加忠实和一致

编码

对于编码来说,第一阶段优化正确率,第二阶段引入时间复杂度奖励

深度搜索

在训练阶段,系统引入了轮次级(turn-level)的质量控制机制。模型在每一次搜索交互中的行为都会被独立评估,而不仅仅关注最终答案。

http://www.jsqmd.com/news/463081/

相关文章:

  • Java面试题--ArrayList 为什么默认容量是 10?
  • 5G-A+北斗如何重塑低空物流?实测无人机配送避障与厘米级定位
  • cc-connect手机控制Claude:Claude Code 推出轻量级openclaw
  • 2026年用户口碑最佳高新技术企业认定公司推荐:五家服务商真实案例与成效解析 政策驱动创新升级 - 品牌推荐
  • 从SVM到Softmax:一文搞懂深度学习分类任务中的损失函数选择
  • 太空5G释放增长动能:六年CAGR50.7%驱动,市场规模从45.82亿元向近797.2亿元跨越
  • 【linux进程间通信】无名管道
  • 从原理到实践:深度解析Git克隆中的RPC failed错误及curl 18问题
  • 告别SQLite!用ObjectBox在Flutter中实现高性能本地存储的5个技巧
  • ESP32 WiFi吞吐量测试全攻略:从硬件选型到iperf实战(避坑指南)
  • java面试:springboot如何解决跨域问题
  • VisionPro模板匹配避坑指南:为什么你的CogPMAlignTool总识别失败?
  • all-MiniLM-L6-v2开箱即用:Ollama一键部署,立即体验轻量级嵌入模型
  • spring项目创建
  • 从零搭建电赛自动泊车小车:前轮转向架构选择与巡线PID调参心得
  • Debian新手必看:从安装到日常使用的保姆级教程(附常见问题解决方案)
  • Gemma-3-12B-IT在电商客服场景的应用:多轮商品咨询与售后话术生成
  • 从零开始:使用STM32CubeIDE完成你的第一个STM32项目(含调试技巧)
  • 阿里云轻量服务器部署 OpenClaw 完整教程
  • SpringBoot整合人大金仓KingBaseV8R6全攻略:从JPA配置到常见问题解决
  • Ubuntu20.04无网络环境下Docker离线安装全攻略(附详细包下载链接)
  • Unity标签隐藏功能大揭秘:如何用SerializeField和HideInInspector优化你的工作流
  • Ubuntu 22.04下英特尔AX200蓝牙失效?5分钟搞定驱动更新(附内核版本检查)
  • Lumerical FDTD实战:5步搞定光子晶体滤波器仿真(附三角晶格参数)
  • AI绘画新玩法:用z-image V7整合包实现精准姿势控制(附ControlNet实战技巧)
  • 避坑指南:STC15单片机ADC采集NTC温度时的5个常见问题及解决方法
  • VSCode+GDB调试内存泄漏?这个隐藏技巧帮你快速定位问题(附malloc_usable_size实战)
  • PyTorch实战:用DQN算法训练CartPole平衡杆(附完整代码与调参技巧)
  • 2026年阿里企业邮箱官方销售电话,最新报价指南与办理流程详细介绍 - 品牌2026
  • ACR122U-A9 NFC读写器实战:5分钟搞定智能海报制作(附Java环境配置指南)