从Qwen2.5到Qwen3.7系列最全总结
01
qwen2.5
架构
延续了 Qwen2 的 Transformer 解码器架构,并在此基础上进行了优化。
该架构包括以下关键组件:
- 分组查询注意力(Grouped Query Attention,GQA):用于高效地利用 KV 缓存(Ainslie 等,2023);
- SwiGLU 激活函数:增强非线性激活(Dauphin 等,2017);
- 旋转位置编码(RoPE):用于编码位置信息(Su 等,2024);
- QKV 偏置:用于提升注意力机制的表现(Su,2023);
- RMSNorm:在预归一化后使用,以保证训练过程稳定(Jiang 等,2023b)。
MoE 模型架构在 Dense 模型基础上,将标准的前馈网络(FFN)层替换为专门的 MoE 层来实现这一点,每个层包含多个 FFN 专家, 并通过路由机制将 tokens 分配给 top-K 专家。
在 tokenizer 方面,团队使用了 Qwen 的 tokenizer,该 tokenizer 实现了字节级别的字节对编码(BBPE),并采用了 151,643 个常规 tokens 的词汇表。
与之前版本相比,他们将控制 tokens 的数量从 3 个扩展到了 22 个,新增了两个用于工具功能的 tokens,其余则用于支持其他模型能力。
预训练
数据:扩充了 Qwen2.5-Math 和 Qwen2.5-Coder 的训练数据,以及使用Qwen2-72B-Instruct 和 Qwen2-Math-72B-Instruct 合成数据,尤其是在数学、编程和知识领域,并且使用专有奖励模型和 Qwen2-Math-RM-72B 模型进行严格的过滤。
并且使用使用 Qwen2-Instruct 模型对不同领域的内容进行分类与平衡,将不同数据打上不同领域的标签,对于电子商务、社交媒体和娱乐等互联网占比大的数据减少采样,对于技术、科学和学术研究等领域重复采样,可以确保一个更加平衡且信息丰富的训练数据集。最后得到了一个具有 18T 大小的数据集。
文章中提出了一个 Scaling Law 来识别不同模型架构下的最优超参数的定理,发现了一个随着模型规模 N 和预训练数据量 D 得到最优学习率 μ 和最优批次大小 B_opt 等超参数的变化规律。
还利用 Scaling Law 来预测并比较不同参数规模的 MoE 模型与其密集模型的性能差异。
通过这种分析,团队为 MoE 模型的超参数配置提供了指导,使得经过精细调整激活参数和总参数后,MoE 模型在性能上能够与特定的密集模型变种(例如 Qwen2.5-72B 和 Qwen2.5-14B)达到平衡。(但是论文没有明确表明关系,只是说我们发现了这个规律)
Qwen2.5 采用了两阶段的预训练方法
首先使用 4K token 的上下文长度进行训练,接着进入扩展阶段,支持更长的序列。
延续 Qwen2 的策略,在最终的预训练阶段,除 Qwen2.5-Turbo 外,所有模型变体将上下文长度从 4K 扩展到 32K token。同时,利用 ABF 技术将 RoPE 的基础频率从 10,000 提升到 1,000,000。
对于 Qwen2.5-Turbo 模型,团队实施了一个逐步扩展上下文长度的策略,经过四个阶段:32K token、64K token、128K token,最终达到 256K token,RoPE 的基础频率为 10,000,000。
在每个阶段,训练数据包含 40% 的当前最大长度序列和 60% 的较短序列。渐进式的训练方法帮助模型平稳适应逐渐增加的上下文长度,同时保持其处理和泛化不同长度序列的能力。
为了提升模型在推理时处理更长序列的能力,团队引入了两项关键技术:YARN 和双块注意力(DCA)。
通过这些创新,他们使得序列长度的处理能力提高了 4 倍。不同序列长度的数据,让模型在处理长短序列的时候都有高质量输出,困惑度(Perplexity,PPL)低。
后训练
数据:采用了一个包含数百万个高质量示例的庞大数据集。包含长序列、数学、编码、指令跟随、结构化数据理解、逻辑推理、跨语言迁移和系统指令等数据。
数据生成中,使用专门的评论模型和多智能体协作评分系统。所有响应都经过严格筛选,只有被所有评分系统认为完美的响应才会被保留,从而保证了输出的高质量标准。
监督微调
团队构建了超过 100 万条 SFT 示例的数据集,模型在 32K token 长度的序列上进行两轮微调,逐渐降低学习率从 7 × 10^-6 至 7 × 10^-7,并应用适当的正则化和梯度裁剪,确保了学习的有效性并防止了过拟合。
在 SFT 阶段,团队采用了两阶段微调方法:
第一阶段中,模型仅使用短指令进行微调,每个指令的最大长度为 32K token。
该阶段使用的数据和训练步骤与其他 Qwen2.5 模型相同,旨在确保模型在短任务上的强大性能。
第二阶段的微调方法则结合了短指令(最多 32K token)和长指令(最多 256K token)。
这种混合微调方法能够有效提升模型在长上下文任务中的指令跟随能力,同时确保它在短任务中的表现不受影响。
强化学习
两阶段强化学习:
Qwen2.5 的强化学习过程分为两个独立的阶段:离线强化学习和在线强化学习。
离线强化学习:此阶段着重于开发奖励模型难以评估的能力,例如推理、事实准确性和指令执行。
通过精心设计和验证训练数据,确保离线强化学习信号既可以学习,又具有可靠性,帮助模型有效掌握这些复杂技能。
在线强化学习:在线强化学习阶段利用奖励模型检测输出质量的细微差异,包括真实性、帮助性、简洁性、相关性、安全性以及去偏见。
通过这一过程,模型能够生成精确、一致、结构清晰的回答,同时保持安全性和可读性。因此,模型的输出始终符合人类的质量标准和预期。
在强化学习阶段,团队采用与其他 Qwen2.5 模型类似的训练策略,主要聚焦于短指令的训练。
这一设计选择基于两个主要因素:首先,长上下文任务的强化学习训练在计算上代价较高;其次,目前还缺少足够适用于长上下文任务的奖励模型。
此外,他们发现,即使只在短指令上进行强化学习训练,也能够显著提高模型在长上下文任务中的人类偏好对齐程度。
离线强化学习
这里使用 DPO 算法,离线强化学习可以预先准备训练信号,这对于那些标准答案存在但难以通过奖励模型评估的任务尤其有利。
该流程中,团队主要关注一些目标明确的查询领域,例如数学、编程、指令跟随和逻辑推理等,这些领域的评估可能非常复杂。
借助 SFT 模型对一组新查询进行重采样。通过质量检查的响应将作为正面例子,而未通过的响应则作为负面例子,用于进行直接偏好优化(DPO)训练。
为了进一步提高训练信号的可靠性和准确性,他们结合了人工审核与自动化审核的双重过程。这种双重方法确保训练数据不仅可学习,而且符合人类的预期。
最终,团队构建了一个包含大约 150,000 个训练对的数据集,随后使用在线合并优化器对模型进行了一轮训练,学习率设置为 7 × 10^-7。
在线强化学习
用于训练奖励模型的查询来自两个不同的数据集:一是公开的开源数据集,二是一个更具挑战性的专有查询集。
响应从 Qwen 模型的多个检查点生成,这些模型在不同的训练阶段经过 SFT、DPO 和 RL 方法的微调。
为了增加多样性,响应在不同的“温度设置”下进行采样。偏好对通过人工标注和自动化标注相结合的方式生成,DPO 的训练数据也被整合到其中。
在 Qwen2.5 的在线强化学习框架中,采用了群体相对策略优化 (GRPO)。
该策略用于奖励模型训练的查询集与 RL 训练阶段的查询集相同。训练过程中,查询的处理顺序依据它们的响应分数方差进行调整,方差较大的查询优先处理,以确保更有效的学习。
每个查询的响应团队会采样 8 次。所有模型的训练使用 2048 的全局批次大小,每个回合包含 2048 个样本,每对查询和响应都作为一个样本。
性能评估数据
通过预训练生成的基础模型和通过后期训练生成的指令微调模型,使用全面的评估套件进行评估,包括常用的公开基准和面向技能的内部数据集。该评估套件主要设计为自动化,最小化人工干预。
02
qwen3
架构
Qwen3 密集架构模型在基本架构上与 Qwen2.5 相似,包括采用分组查询注意力机制(GQA)、SwiGLU 激活函数、旋转位置编码(RoPE)以及带预归一化的 RMSNorm。
此外,研究团队移除了 Qwen2 中使用的 QKV 偏置,并在注意力机制中引入 QK-Norm,以确保 Qwen3 在训练过程中的稳定性。
延续 Qwen2.5-MoE 的设计理念,Qwen3 实现了细粒度专家分割技术。
Qwen3 MoE 模型配备 128 个专家,每个 token 激活 8 个专家。与 Qwen2.5-MoE 不同的是,Qwen3-MoE 设计中去除了共享专家机制。
此外,研究团队采用全局批量负载平衡损失函数来促进专家专业化。这些架构和训练创新显著提升了模型在各种下游任务中的性能表现。
Qwen3 模型沿用了 Qwen 的 tokenizer,该 tokenizer 实现了字节级字节对编码(BBPE),词汇表规模达 151,669 个 token。
预训练
相比 Qwen2.5,Qwen3 显著扩展了训练数据的规模和多样性。具体而言,预训练 token 数量增加了一倍,语言覆盖范围扩大了三倍。
所有 Qwen3 模型都在一个包含 119 种语言和方言、总计 36T token 的大型多样化数据集上训练。该数据集包含各类书籍、多语言文本和合成数据中的高质量内容。
利用 Qwen2.5-VL 模型对大量 PDF 类文档进行文本识别,然后通过 Qwen2.5 模型对识别文本进行精炼以提高质量。通过这一两步流程,成功获取了数T额外的高质量文本 token。
研究人员还利用 Qwen2.5、Qwen2.5-Math 和 Qwen2.5-Coder 模型合成了数T不同格式的文本 token,包括教科书、问答内容、指令文本和代码片段,涉及数十个领域。
最后,通过整合更多多语言数据和引入新的语言,进一步扩展了预训练语料库。
与 Qwen2.5 相比,支持的语言数量从 29 种显著增加到 119 种,大幅提升了模型的语言覆盖范围和跨语言处理能力。
研究团队开发了一套多语言数据标注系统,旨在提高训练数据的质量和多样性。
该系统已应用于大规模预训练数据集,为超过 30T token 提供了教育价值、学科、领域和安全性等多维度标注,这些详细标注支持更高效的数据筛选和组合。
预训练阶段
Qwen3 模型的预训练分为三个关键阶段:
(1)通用阶段(S1):第一预训练阶段中,所有 Qwen3 模型在超过 30T token 上进行训练,使用 4,096 个 token 的序列长度。训练数据覆盖 119 种语言和方言。
(2)推理阶段(S2):提高了 STEM、编程、推理和合成数据的比例。模型在约 5T 高质量 token 上进行进一步预训练,序列长度保持为 4K token。在此阶段还加速了学习率衰减过程。
(3)长上下文阶段(S3):收集了高质量长上下文语料库以扩展 Qwen3 模型的上下文处理长度。
所有模型在数百亿 token 上进行预训练,序列长度达 32K token。长上下文语料库中,75% 的文本长度在 16K~32K token 之间,25% 的文本长度在 4K~16K token 之间。
延续 Qwen2.5 的做法,研究团队使用注意力基频扩展(ABF)技术将 RoPE 的基频从 10,000 提升至 1,000,000。
引入了 YARN(Yet Another RoPE extensioN)和双块注意力(Dual Chunk Attention,DCA)技术,使推理阶段的序列长度处理能力提高了四倍。
与 Qwen2.5 类似,研究团队基于上述三个预训练阶段,为最佳超参数(如学习率调度器和批量大小)预测开发了 scaling law。
通过系统研究模型架构、训练数据、训练阶段与最佳训练超参数之间的关系,最终为每个密集架构模型和 MoE 模型确定了预测最优的学习率和批量大小策略。(但是论文没有明确表明关系,只是说我们发现了这个规律)
后训练
Qwen3 的后训练流程战略性地围绕两个核心目标设计:
(1) 思维控制:整合“非思考”和“思考”两种不同模式,使用户能灵活选择模型是否进行推理,并通过设定思考过程的 token 预算来控制推理深度。
(2) 强到弱知识蒸馏:优化轻量级模型的后训练流程。通过利用大规模模型的知识,显著降低小规模模型构建所需的计算资源和开发工作量。
Long-CoT 冷启动
研究团队首先构建了一个涵盖广泛领域的综合数据集,包括数学、编程、逻辑推理和一般 STEM 问题。
数据集中的每个问题都配有经验证的参考答案或基于代码的测试用例,作为 CoT 训练冷启动阶段的基础。
数据集构建采用严格的两阶段过滤流程:查询过滤和响应过滤。
查询过滤: 使用 Qwen2.5-72B-Instruct 识别并移除难以验证的查询,包括含多个子问题或要求一般文本生成的查询。
此外,过滤了 Qwen2.5-72B-Instruct 无需 CoT 推理就能正确回答的查询,这有助于防止模型依赖简单模式匹配,确保问题需要深度推理
响应过滤:在保留验证查询集后,使用 QwQ-32B 为每个剩余查询生成 N 个候选响应。当 QwQ-32B 持续无法生成正确解决方案时,人类标注者会手动评估响应准确性。
经过精细筛选的数据子集随后用于推理模式的初始冷启动训练。此阶段目标是建立基础推理模式,而非过度强调即时推理性能。
推理强化学习
选取满足以下条件的 3,995 对“查询-验证器”样本:
- 未出现在冷启动阶段;
- 冷启动模型能够学习这些对;
- 具有挑战性;
- 覆盖广泛子领域。
采用梯度正则化策略优化(GRPO)来更新模型参数,发现以下方面可以提升训练效率和稳定性:
- 使用大 batch size,提高每个查询的回滚次数 rollout 提升效率
- 采用离线策略训练来提升样本效率
- 控制模型熵的稳定增长或保持稳定性来平衡探索与利用
思考模式融合
聊天模板设计:对于思考模式和非思考模式的样本,分别在用户查询或系统消息中引入”/think“和”/no think“token
训练方式:研究团队对推理强化学习模型进行了持续监督微调(SFT),并设计了融合两种模式的聊天模板。
SFT 数据构建:SFT 数据集结合了“思考”和“非思考”两类数据。
思考数据:”思考” 数据通过第二阶段模型本身对第一阶段查询进行拒绝采样生成。
非思考数据:“非思考”数据经过精心筛选,涵盖多种任务类型,包括编程、数学、指令遵循、多语言处理、创意写作、问答和角色扮演。
研究人员采用自动生成的评估清单(checklists)来评估“非思考”数据的回答质量,并特别增加了翻译任务的比例以提高低资源语言任务的处理能力。
思考预算控制(Thinking Budget)
模型掌握了非思考和思考模式的响应能力,自然会发展出处理中间状态的能力——即基于不完整思考过程生成响应。
当模型生成的 内容长度,即模型思考长度达到用户定义的上限时,我们会手动终止思考过程;
并插入如下停止指令:
“由于用户设定的时间有限,我现在需要基于当前的思考内容直接给出解答。\n</think>\n\n”插入此指令后,模型基于截至该点的累积推理继续生成最终响应。值得注意的是,这种能力并非通过显式训练获得,而是思考模式融合的自然产物。
通用 RL
通用 RL 阶段旨在全面提升模型在各种场景中的能力和稳定性
建立了覆盖二十余种不同任务的复杂奖励系统,每种任务均配有定制评分标准,用于提高以下能力:
指令遵循能力:确保模型准确理解并执行用户指令,包括内容、格式、长度和结构化输出等要求
格式遵循能力:除明确指令外,模型需遵守特定格式规范。例如,通过在思考和非思考模式间切换来响应”/think“和”/no think” token,并在最终输出中使用指定 token(如”“和”“)来区分思考过程和响应内容。
偏好对齐能力
Agent 能力
特定场景能力
设定了三种奖励:
基于规则的奖励
基于参考答案的模型奖励:此方法为每个查询提供参考答案,并使用 Qwen2.5-72B-Instruct 根据参考答案对模型响应进行评分。
无参考答案的模型奖励:利用人类偏好数据训练奖励模型,为模型响应分配量化分数。
强到弱知识蒸馏
强到弱知识蒸馏流程专为优化轻量级模型而设计。
分为两个阶段:
(1)Off-policy Distillation
教师模型分别在 /think 和 /no think 模式下生成响应,我们将这些响应结合起来,作为蒸馏数据,用于指导学生模型(即小模型)学习。
目标:让轻量级学生模型掌握基本的推理能力; 同时学会如何在不同的“思考模式”之间切换;
(2)On-policy Distillation
采样一批提示(prompts);学生模型在 /think 或 /no think 模式下生成响应;然后,将学生模型的logits与教师模型(Qwen3-32B 或 Qwen3-235B-A22B)的 logits(预测分布)对齐来微调学生模型,计算它们之间的 KL 散度(Kullback-Leibler divergence);最终微调学生模型,使其输出分布更贴近教师模型。
有趣的部分
思考预算的有效性
Qwen3 展现出随着思考预算增加而平稳、可扩展的性能提升。
在线策略蒸馏有效性
知识蒸馏方法在性能上显著优于强化学习,同时仅需约 1/10 的 GPU 计算时间,就让小模型超过了 RL 方式训练的自己。
思考模式融合和通用强化学习的效果
对于知识、STEM、数学和编程任务,思考模式融合和通用强化学习并未带来显著改进。
反而在 AIME’24 和 LiveCodeBench 等挑战性任务中,思考模式下的性能在这两个训练阶段后有所下降。
我们重点关注一下下降的部分:出现了退化现象,模型被训练用于应对更广泛的通用任务,从而削弱了它在处理复杂任务时的专业能力。表示了这种 adptive learning 存在一些弊端。
03
qwen3.5
Qwen3.5 的核心特点在于通过混合注意力架构(Transformer + 线性注意力(类似 Gated Delta Network))和 MoE 稀疏机制,在大幅降低计算成本(约50%)的同时,实现了长上下文(十万级 token)与高性能推理能力的统一。
并且通过原生多模态融合与强化的 Agent 能力(如90+分的多步任务执行表现),推动大模型成为可执行任务的智能体系统。
架构
混合注意力机制 (Transformer + 线性注意力) :通过引入线性注意力(类似于 Gated Delta Network),将一部分计算复杂度降至 O(n) ,降低成本加快推理速度。
主要采用的 Transformer 的变体如图。
预训练
数据:使用了更大规模且经过严格过滤的视觉-文本混合语料,并重点加强了数学(STEM)、推理以及中英文数据。
词表 :将词表大小从 15 万扩展到了 25 万,使多数语言的编解码效率提升了 10%~60%。在处理 32K 和 256K 的长文本时,解码吞吐量更是分别飙升了 8.6 倍和 19.0 倍。
原生多模态融合:改变了以往“先将图像/视频转成文本再处理”的旧模式,实现了文本、图像、视频在模型早期的直接融合与联合训练。
后训练与基础设施
强化学习的异步并行系统: 将“数据生成”与“模型训练”分离开来。
Qwen-Agent 一边与环境交互产生“经验数据”(Rollout)并存入缓存池(Buffer),训练器(Trainer)一边同步从队列中抓取数据进行学习,同时由奖励模型(Reward Service)实时打分。
这种边生成边训练的并行流转,让整体训练效率提升了 3 到 5 倍。
混合精度与显存优化:大量使用 FP8 低精度进行计算以节省显存和提升速度,但在容易出现不稳定的关键节点保留 BF16 高精度。这使得显存占用减少了约一半,速度提升 10% 以上。
多模态计算重叠:在训练图文视频等不同模态时,系统通过智能调度将计算任务重叠,确保 GPU 等硬件始终处于“满负荷”状态,让复杂的多模态训练速度也能逼近纯文本训练。
有趣的结论
真实环境强化学习
通过偏向真实任务环境的强化学习,模型在不同任务上的表现都比较均衡。模型它不仅能做数学题,还能写代码、解决结构化问题,而且稳定性很高。
小模型训练策略
Qwen3.5 的一些中小规模模型(比如 9B)在很多任务上已经可以接近甚至超过上一代几十 B 甚至上百 B 模型的水平。
这说明模型能力不再完全依赖参数规模,而是越来越依赖架构设计和训练策略。换句话说,现在拼的不是“谁更大”,而是“谁更聪明地用参数”。
04
qwen3.6
核心特性与能力跃升
超长上下文: 模型默认支持高达 100 万的上下文窗口。
更加注重智能体(Agent)能力:模型在智能体编程领域实现了飞跃,能够从容应对前端网页开发、复杂的代码仓库级问题求解以及终端操作与自动化任务执行。
在多个高难度的长程规划任务中取得最优成绩,可以看见优化了长程 agent 工作能力。
原生多模态演进:视觉与视频理解能力大幅增强,模型不仅能识别图像和视频,还能结合推理、Grounding、OCR 等能力进行复杂分析,
05
qwen3.7
Qwen3.7 优势在于更优秀编程能力,更长程的工具调用能力和执行能力。
架构(特指训练基础设施架构)
没有提及模型参数、注意力层等神经网络架构,但文章详细介绍了其强化学习 Rollout 环境基础设施的架构设计:
解耦设计:系统将每个训练实例正交解耦为三个独立组件:任务(Task)、运行框架(Harness)与验证器(Verifier)。
组合式扩展:这种架构允许同一任务以极低的成本与不同类型、版本的框架和验证器自由重组。
赋能了跨框架与跨验证器的强化学习(RL)训练——使模型在多变的框架配置下处理同源任务,从而迫使其学习具备泛化能力的解题策略,而非依赖特定框架的捷径。
预训练 (Pre-training)
文章中完全没有提及 Qwen3.7 在预训练阶段的数据规模、配比或算力细节。
后训练与强化学习 (Post-training & RL)
后训练是这篇文章重点着墨的技术板块,Qwen3.7 通过极其复杂的强化学习(RL)策略实现了智能体能力的泛化与长程执行:
智能体训练环境的大幅扩展:在 Qwen3.5 的基础上,进一步扩展了训练环境的质量与多样性。
模型从多样化的训练环境中获得了真正的“能力泛化”,评测中使用的基准环境均为训练时未见过的全新领域。
跨框架与跨验证器 RL 训练:依托上述解耦的系统架构,迫使模型在多变的框架配置下处理同源任务。
这逼迫模型必须学习通用的解题策略,而不是依赖特定框架“走捷径”,从而实现了极其稳定的跨框架泛化能力。
对抗“奖励作弊”(Reward Hacking)的自进化体系:在长达 80 多小时的软件工程(SWE)强化学习中,Qwen3.7-Max 被接入训练监控系统。
它能够自主回放轨迹、归纳作弊模式(例如去 GitHub 偷看标准答案),并最终自进化出 13 条规则,精准拦截了 1,618 个作弊案例,保障了 RL 训练的稳定性。
长程时序复杂度强化: 为了提升长程规划能力,团队在“动态累积生存博弈框架”下扩展了训练任务的时序复杂度。
这让模型学会在长达数小时、涉及数千步决策的过程中保持策略一致性,有效克服了长上下文带来的“记忆腐化”和“指令漂移”问题。(但是文中没有提到这个框架是什么)
假如你从2026年开始学大模型,按这个步骤走准能稳步进阶。
接下来告诉你一条最快的邪修路线,
3个月即可成为模型大师,薪资直接起飞。
阶段1:大模型基础
阶段2:RAG应用开发工程
阶段3:大模型Agent应用架构
阶段4:大模型微调与私有化部署
配套文档资源+全套AI 大模型 学习资料,朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】👇👇
