当前位置：首页 > news >正文

Qwen3-Next-80B：复杂推理性能超越Gemini-2.5-Flash

news 2026/3/31 23:00:44

Qwen3-Next-80B：复杂推理性能超越Gemini-2.5-Flash

【免费下载链接】Qwen3-Next-80B-A3B-ThinkingQwen3-Next-80B-A3B-Thinking 在复杂推理和强化学习任务中超越 30B–32B 同类模型，并在多项基准测试中优于 Gemini-2.5-Flash-Thinking项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-Next-80B-A3B-Thinking

国内大模型技术再获突破，Qwen3-Next-80B-A3B-Thinking在复杂推理任务中展现出卓越性能，多项基准测试结果超越谷歌Gemini-2.5-Flash-Thinking，标志着国产大模型在高端AI能力领域实现重要突破。

当前AI行业正处于模型架构创新与性能竞赛的关键阶段，混合专家（MoE）技术、超长上下文处理能力和复杂推理优化成为核心竞争焦点。随着企业级应用对大模型的需求从基础对话向专业领域深度渗透，模型的推理精度、计算效率和任务适应性成为衡量技术实力的重要标准。Qwen3-Next系列的推出恰逢其时，通过架构创新重新定义了中参数规模模型的性能边界。

Qwen3-Next-80B-A3B-Thinking的核心突破在于其创新性的混合架构设计，融合了Gated DeltaNet与Gated Attention的优势，配合高稀疏度MoE结构（512个专家仅激活10个），在800亿总参数中仅需激活30亿参数即可实现高效推理。这种设计使模型在保持80B参数能力的同时，将训练成本降低10%，长上下文（32K+ tokens）推理吞吐量提升10倍，完美平衡了性能与效率。

该模型原生支持262,144 tokens上下文长度，通过YaRN技术可扩展至100万tokens，为处理超长文档、多轮对话和复杂任务流提供了强大支撑。在推理优化方面，采用GSPO强化学习技术解决了混合注意力机制的训练稳定性问题，使其在数学推理、代码生成等专业领域表现突出。

性能实测数据显示，Qwen3-Next-80B-A3B-Thinking在多个权威基准测试中表现优异：

这张对比图清晰展示了Qwen3-Next-80B-A3B-Thinking与竞品在关键基准测试中的性能差异。在AIME25数学竞赛题上，该模型以87.8分大幅领先Gemini-2.5-Flash-Thinking的72.0分，展现出在复杂逻辑推理领域的显著优势。同时在LiveCodeBench v6代码生成任务中，68.7分的成绩也超越了Gemini的61.2分，验证了其多领域适应性。

模型架构上，Qwen3-Next采用48层混合布局设计（12组3×(Gated DeltaNet→MoE) + 1×(Gated Attention→MoE)结构），创新性地将线性注意力与稀疏专家系统结合，既保留了长序列建模能力，又通过专家动态激活实现计算资源的精准分配。

该架构图揭示了Qwen3-Next的技术核心，通过Zero-Centered RMSNorm等稳定性优化技术，解决了大模型训练中的梯度爆炸问题。特别值得注意的是其Multi-Token Prediction（MTP）技术，不仅提升了预训练效率，更在推理阶段实现了吞吐量的显著提升，为大规模部署提供了技术保障。

Qwen3-Next-80B的突破性进展对AI行业具有多重意义：首先，其"中参数规模、高性能表现"的技术路径为大模型发展提供了新范式，证明通过架构创新而非单纯堆参数同样可以实现顶尖性能；其次，26万tokens超长上下文能力将推动法律文档分析、代码库理解、多模态长视频处理等应用场景的技术突破；最后，推理效率的提升使企业级部署成本大幅降低，加速AI技术在制造业、金融分析等专业领域的深度应用。

随着Qwen3-Next系列的推出，国内大模型在复杂推理、长上下文处理等核心能力上已实现对国际主流模型的超越。未来，随着SGLang、vLLM等推理框架的持续优化，以及多模态能力的进一步整合，Qwen3-Next有望在智能客服、自动驾驶决策系统、科学计算辅助等关键领域发挥更大价值，推动AI技术从通用能力向行业深度解决方案加速演进。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

查看全文

http://www.jsqmd.com/news/184872/