当前位置：首页 > news >正文

叮~~Qwen3.5上线魔乐社区，基于昇腾的部署教程来了

news 2026/3/27 5:48:09

2月16日除夕，千问正式发布Qwen3.5，并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的开放权重版本。作为原生视觉-语言模型，Qwen3.5-397B-A17B 在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异，助力开发者与企业显著提升生产力。

Qwen3.5模型一经开源发布，昇腾Day0实现基于MindSpeed MM在Atlas 800 A3、Atlas 900 A3SuperPoD上的训练复现，同时也支持基于vLLM-Ascend和SGLang在Atlas 800 A2、Atlas 800 A3上的高效推理部署。

Qwen3.5开源权重以及基于昇腾的部署教程已第一时间上线魔乐社区，欢迎开发者们下载体验！

🔗 模型原始权重：
https://modelers.cn/models/Qwen-AI/Qwen3.5-397B-A17B
🔗 模型量化权重：https://modelers.cn/models/Eco-Tech/Qwen3.5-397B-A17B-w8a8-mtp
🔗 vLLM部署教程：https://modelers.cn/models/vLLM_Ascend/Qwen3.5

01 模型介绍

Qwen3.5-397B-A17B采用创新的混合架构，将线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）相结合，实现出色的推理效率：总参数量达 3970 亿，每次前向传播仅激活 170 亿参数，在保持能力的同时优化速度与成本。同时还将语言与方言支持从 119 种扩展至 201 种，为全球用户提供更广泛的可用性与更完善的支持。

作为原生视觉-语言模型，Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评估中表现优异，助力开发者与企业显著提升生产力。

02 基于昇腾的Qwen3.5模型训练

Qwen3.5新模型的线性注意力与512专家高稀疏MoE混合架构对高性能计算落地提出了新的挑战，MindSpeed MM多模态模型套件依托FSDP后端支持、MoE专项优化、分块损失计算、Triton Ascend编译加速及meta‑device虚拟初始化等核心特性，高效支撑397B参数量规模Qwen3.5模型的一键部署与稳定高效训练。

MM新训练后端加速开发创新迭代

MindSpeed MM构建了一套基于FSDP训练后端的新型分布式多模态模型训练框架，旨在为大规模多模态模型提供灵活、高效的训练解决方案。该框架通过解耦并行策略与模型架构的设计理念，实现了FSDP、EP和CP三维并行能力的自由组合，大幅降低了大模型训练的工程复杂度与配置门槛。该框架具备优异的跨硬件平台兼容性，可在多种计算设备上高效运行，确保在不同硬件环境下的训练稳定性与效率。在性能优化方面，MindSpeed MM深度融合算子优化与智能显存管理技术，显著提升了训练吞吐量与资源利用率。

基于FSDP训练后端的设计，MindSpeed MM框架大幅缩短了新模型的适配周期，真正实现了"开箱即用、快速迭代"的开发体验，为多模态大模型的研究与应用提供了强有力的技术支撑。

GEMM高性能算子提升训练性能近10倍

Qwen3.5模型作为大参数稀疏MoE模型，隐藏层高，专家数多，语言模块的计算量高、耗时大，即使对于短序列数据，训练时间也较长，成为大规模MoE模型训练性能瓶颈。MindSpeed MM采用GEMM（group expert matmul）技术提升模型计算速度，torch_npu.npu_grouped_matmul是昇腾CANN专为大规模MoE模型优化的高效算子，其核心思路是将多个独立的矩阵乘法操作（matmul）进行批量化、分组化处理，通过减少内存访问开销和计算调度开销，显著提升大模型训练与推理效率。相比于torch小算子实现，使用gemm版本的Qwen3.5 MoE模型训练速度提升近10倍。

Triton Ascend编译框架提升线性注意力计算性能2倍+

Qwen3.5模型中四分之三的attention block使用了线性注意力层，提升线性注意力层的计算性能是昇腾训练加速的关键。MindSpeed MM基于昇腾自研Triton Ascend编译框架和BiSheng编译器，利用CV算子融合、流水编排、访存优化等关键技术，提升线性注意力层的计算性能。在Qwen3.5 Dense模型实测中，相比于torch小算子，使用Triton Ascend相关算子的模型训练性能提升2倍+。

ChunkLoss分块计算，降低3GB显存峰值

Qwen3.5模型词表大小vocab_size远大于模型的隐藏层维度hidden_size，在损失计算时会带来显著的显存峰值，且序列越长，峰值越明显，在动态shape场景下还易引发大块内存碎片，显存压力更大。MindSpeed MM在采用FSDP2混合并行策略的基础上采用ChunkLoss进一步降低峰值显存，通过对序列维度进行分块（chunking），将loss计算拆分为多个长度为sub_seq子段依次进行。在完成每个子段的前向计算后，立即执行对应的反向传播，从而避免同时保留整个序列的logits。这样一来，任意时刻最多只需缓存长度为sub_seq的logits，显著降低了显存峰值，在Qwen3.5模型实测中设备总内存64GB情况的8K长序列内存使用率降低3GB。

一键部署Qwen3.5训练

MindSpeed MM多模态模型套件提供了全新升级的一键快捷安装功能，无需复杂配置，git clone拉取代码后执行一行bash命令，即可完成CANN及运行依赖库的安装，在安装过程中支持交互式自定义安装。同时该套件将训练中用到的并行配置、训练配置、模型配置、数据配置进行集中整合。无须侵入式修改代码就能轻松使能优化特性（gemm、triton-ascend、chunk loss）、并行配置（FSDP、cp、recompute）、以及工具特性（profile、mem snapshot），轻松开启Qwen3.5系列模型训练创新。

03 基于昇腾的Qwen3.5模型推理

Qwen3.5作为阿里通义千问系列推出的新一代大模型，其对推理能力的提升是核心目标之一。得益于RL、MoE、万亿token数据，Qwen3.5拥有更强的理论推理上限，与此同时，在上下文管理、调度机制、输出控制等方面也面临着极高挑战。vLLM-ascend、SGLang推理和服务框架依托混合异构模型的KV Cache、量化、MoE融合优化等核心特性，高效支撑397B参数量规模Qwen3.5模型的推理部署与性能优化。

混合异构模型的KV Cache技术

Qwen3.5引入了线性注意力和注意力门控机制，对推理框架的KV Cache管理带来了新的挑战。昇腾通过在vLLM-ascend、SGLang框架中构筑多个独立的内存池实例共享全局内存，KV Cache管理更灵活，并可根据实际负载，动态调整各类型的内存分配，使得各类内存使用效率达到最佳。

昇腾融合加速

基于昇腾自研triton-ascend套件和BiSheng编译器，利用cv算子融合、流水编排、访存优化等关键技术，对Qwen3.5模型的关键结构实现了性能加速。除了线性注意力层中新增的fused_gdn_gating_patch，causal_conv1d_fn，npu_recurrent_gated_delta_rule等加速算子之外，对于较为通用的局部网络结构，也实现了split_norm_mrope和addGemmaRMSNorm等融合加速。

W8A8无损量化

昇腾MindStudio模型压缩工具msModelSlim快速接入Qwen3.5模型W8A8量化，在保持精度近乎无损的前提下，模型权重压缩到原来的一半。对于MoE架构中的专家网络，采用基于per-token粒度的动态量化策略，能够自适应不同Token的输入分布差异，从而更好地保留各专家的表达能力。对于Attention结构，用户可根据实际性能与精度需求灵活调整量化方式。msModelSlim提供了统一的策略配置接口，支持按不同模型模块分别设置量化粒度、量化算法等参数，具备较高的灵活性与可定制性。

MoE融合优化

EP部署模式中，MoE中的专家分布在较大的通信域的各个卡上，每个Token需要分发到对应的卡上进行计算，传统计算方式在通信域比较大的场景下，存在通信次数多，卡间同步开销严重等问题，阻碍了整网端到端时延的提升。

vLLM-ascend、SGLang框架通过通算融合技术，实现MoEDistributeDispatch和MoEDistributeCombine，将计算和传输拆解为Token粒度的计算单位，通过流水排布实现通信和计算的并行执行。同时，利用超节点内存语义的通信技术直接向不同卡上的共享内存传输数据，从而减少了本地拷贝和等待数据的开销。

推理部署指导

当前基于vLLM-ascend和SGLang框架实现了Qwen3.5模型的高效推理，通过KV Cache、量化、MoE融合优化等核心特性和机制，可缓存推理状态、维持推理轨迹，保持长上下文中的推理一致性、逻辑连贯性和稳定完整性，避免中间推理步骤的信息丢失或矛盾，实现了模型从完成单次问答，转向能闭环完整任务的跨越。

vllm部署指导可参见魔乐社区链接：

https://modelers.cn/models/vLLM_Ascend/Qwen3.5

查看全文

http://www.jsqmd.com/news/390315/