当前位置：首页 > news >正文

【MLLM】Qwen3.5模型和推理优化

news 2026/3/27 0:28:24

note

Qwen3.5模型基于混合结构，397B总参/17B激活，能力匹配 >1T 参数的 Qwen3-Max；原生多模态设计，同量级下多模态任务表现优于 Qwen3-VL；覆盖 201 种语言；在代码生成、智能体推理与多模态理解方面表现卓越；
截止20260220，还没公布Qwen3.5的paper，但从PR信息来看：
- Qwen-3.5 就是多模态版的 Qwen3 Next，即把 ViT + PatchMerger 接上 Qwen3 Next。自然地，模型也支持 Text-Only 的输出。
- Qwen-3.5-MoE 在 Qwen-3.5 基础上将 LLM Backbone 的 FFN 替换为 Qwen3 风格的 MoE（Top-K Router + Multi-Expert + Shared Expert）

文章目录

note
一、Qwen3.5模型
- 1、效率优化
- 2、泛化能力提升
- 3、多模态能力提升
二、LLM infra优化
三、推理优化
四、模型效果
- 1、Qwen3.5-397B-A17B模型
- - （1）文本效果
  - （2）视觉能力
- 2、其他参数更小的模型
Reference

一、Qwen3.5模型

基本信息

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练

语言模型参数

参数总量：3970亿
激活参数量：170亿
隐藏层维度：4096
Token嵌入维度：248320（已填充）
层数：60
- 隐藏层结构：
  15 * (3 * (门控 DeltaNet -> MoE) -> 1 * (门控注意力 -> MoE))

门控 DeltaNet 模块

线性注意力头数量：
- V（值）头：64
- QK（查询-键）头：16
头维度：128

门控注意力模块

注意力头数量：
- Q（查询）头：32
- KV（键-值）头：2
头维度：256
旋转位置嵌入维度：64

混合专家系统（MoE）

专家总数：512
激活专家数：10个路由专家 + 1个共享专家
专家中间层维度：1024

输出与训练

语言模型输出维度：248320（已填充）
MTP（多步训练策略）：采用多步训练

上下文长度

原生支持：262,144个token
可扩展至：最多1,010,000个token

1、效率优化

在 32k 上下文长度下，Qwen3.5-397B-A17B 的吞吐量达到 Qwen3-Max 的 8.6 倍，同时保持相当的性能表现。这得益于 Next 混合架构的三项关键设计：

更高稀疏度的 MoE：单次推理仅激活 17B 参数，按需调用专家模块；
门控 DeltaNet 与门控注意力混合机制：兼顾长序列处理速度与推理质量；
多 token 预测：单次前向推理预测多个 token，显著提升生成效率

2、泛化能力提升

在同等规模下，Qwen3.5-397B-A17B 超越 Qwen3-VL，得益于三项设计：

原生多模态融合：通过训练阶段的早期文本-视觉融合，视觉与语言在统一表征空间中联合学习，提升 GUI 理解、视频分析等跨模态任务的连贯性；
多语言覆盖扩展：训练数据覆盖语言从 119 种扩展至 201 种，强化全球用户的语言表达理解；
词表扩容至 250k：编解码效率提升 10–60%，尤其改善长尾语言与复杂表达的 tokenization 效果。

3、多模态能力提升

过去的多模态模型通常是：“视觉编码器 + 语言模型”的拼接：图片先被转成特征，再喂给语言模型理解。我们在 Qwen3.5-397B-A17B 训练阶段就把文本和视觉数据融合，让模型在统一的空间里同时学习“看”和“说”。一个模型，端到端，全搞定——从视觉推理、空间定位到 GUI 操作与视频理解，任务连贯性显著提升。

依托覆盖图像、视频、STEM 与 GUI 的多元视觉数据训练，Qwen3.5 在同等规模下超越 Qwen3-VL，真正迈向原生多模态 Agents。

二、LLM infra优化

通过训推分离架构的解耦式设计，该框架显著提升了硬件利用率，实现了动态负载均衡和细粒度的故障恢复。配合 FP8 训推、Rollout 路由回放、投机采样以及多轮 Rollout 锁定等技术，我们进一步优化了系统吞吐，提高了训推一致性。

通过系统与算法协同设计，该框架在严格控制样本陈旧性的基础上有效缓解了数据长尾问题，提高了训练曲线的稳定性和性能上限。

框架面向原生智能体工作流设计，能够实现稳定、无缝的多轮环境交互，消除了框架层的调度中断。这种解耦设计使得系统能够扩展百万级规模的 Agent 脚手架与环境，从而显著增强模型的泛化能力。上述优化最终取得了 3×–5× 的端到端加速，展现了卓越的稳定性、高效率与可扩展性。

三、推理优化

阿里这次发布的 Qwen3.5-397B-A17B 是个 3970 亿参数的多模态推理模型（实际工作时用 170 亿活跃参数），原本完整版要占 807GB 硬盘空间。Unsloth 通过 Dynamic 2.0 量化技术，把模型压缩到 214GB，让单张 24GB 显卡配合 256GB 内存就能跑到 25 tokens/秒。

和传统量化方法不同，Dynamic 2.0 不是简单粗暴地把所有层都压缩到 4-bit，而是采用混合精度策略：把对模型性能影响大的关键层保持在 8 或 16-bit，只把次要层压缩到 4-bit。这种“智能压缩”让模型体积大幅缩小的同时，还能保住大部分性能。

链接：https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF（一定一定要注意不要直接下载，这个目录下有很多模型，Dynamic量化模型只有94GB，但是文件夹除了这个模型以外还有其他3/4/5/6/7/8bit分组量化模型）

四、模型效果

1、Qwen3.5-397B-A17B模型

（1）文本效果

评测维度	GPT5.2	Claude 4.5 Opus	Gemini-3 Pro	Qwen3-Max-Thinking	K2.5-1T-A32B	Qwen3.5-397B-A17B
Knowledge
MMLU-Pro	87.4	89.5	89.8	85.7	87.1	87.8
MMLU-Redux	95.0	95.6	95.9	92.8	94.5	94.9
SuperGPQA	67.9	70.6	74.0	67.3	69.2	70.4
C-Eval	90.5	92.2	93.4	93.7	94.0	93.0
Instruction Following
IFEval	94.8	90.9	93.5	93.4	93.9	92.6
IFBench	75.4	58.0	70.4	70.9	70.2	76.5
MultiChallenge	57.9	54.2	64.2	63.3	62.7	67.6
Long Context
AA-LCR	72.7	74.0	70.7	68.7	70.0	68.7
LongBench v2	54.5	64.4	68.2	60.6	61.0	63.2
STEM
GPQA	92.4	87.0	91.9	87.4	87.6	88.4
HLE	35.5	30.8	37.5	30.2	30.1	28.7
HLE-Verified	43.3	38.8	48	37.6	–	37.6
Reasoning
LiveCodeBench v6	87.7	84.8	90.7	85.9	85.0	83.6
HMMT Feb 25	99.4	92.9	97.3	98.0	95.4	94.8
HMMT Nov 25	100	93.3	93.3	94.7	91.1	92.7
IMOAnswerBench	86.3	84.0	83.3	83.9	81.8	80.9
AIME26	96.7	93.3	90.6	93.3	93.3	91.3
General Agent
BFCL-V4	63.1	77.5	72.5	67.7	68.3	72.9
TAU2-Bench	87.1	91.6	85.4	84.6	77.0	86.7
VITA-Bench	38.2	56.3	51.6	40.9	41.9	49.7
DeepPlanning	44.6	33.9	23.3	28.7	14.5	34.3
Tool Decathlon	43.8	43.5	36.4	18.8	27.8	38.3
MCP-Mark	57.5	42.3	53.9	33.5	29.5	46.1
Search Agent
HLE w/ tool	45.5	43.4	45.8	49.8	50.2	48.3
BrowseComp	65.8	67.8	59.2	53.9	–/74.9	69.0/78.6
BrowseComp-zh	76.1	62.4	66.8	60.9	–	70.3
WideSearch	76.8	76.4	68.0	57.9	72.7	74.0
Seal-0	45.0	47.7	45.5	46.9	57.4	46.9
Multilingualism
MMMLU	89.5	90.1	90.6	84.4	86.0	88.5
MMLU-ProX	83.7	85.7	87.7	78.5	82.3	84.7
NOVA-63	54.6	56.7	56.7	54.2	56.0	59.1
INCLUDE	87.5	86.2	90.5	82.3	83.3	85.6
Global PIQA	90.9	91.6	93.2	86.0	89.3	89.8
PolyMATH	62.5	79.0	81.6	64.7	43.1	73.3
WMT24++	78.8	79.7	80.7	77.6	77.6	78.9
MAXIFE	88.4	79.2	87.5	84.0	72.8	88.2
Coding Agent
SWE-bench Verified	80.0	80.9	76.2	75.3	76.8	76.4
SWE-bench Multilingual	72.0	77.5	65.0	66.7	73.0	69.3
SecCodeBench	68.7	68.6	62.4	57.5	61.3	68.3
Terminal Bench 2	54.0	59.3	54.2	22.5	50.8	52.5

（2）视觉能力

评测维度	GPT5.2	Claude 4.5 Opus	Gemini-3 Pro	Qwen3-VL-235B-A22B	K2.5-1T-A32B	Qwen3.5-397B-A17B
STEM and Puzzle
MMMU	86.7	80.7	87.2	80.6	84.3	85.0
MMMU-Pro	79.5	70.6	81.0	69.3	78.5	79.0
MathVision	83.0	74.3	86.6	74.6	84.2	88.6
Mathvista(mini)	83.1	80.0	87.9	85.8	90.1	90.3
We-Math	79.0	70.0	86.9	74.8	84.7	87.9
DynaMath	86.8	79.7	85.1	82.8	84.4	86.3
ZEROBench	9	3	10	4	9	12
ZEROBench_sub	33.2	28.4	39.0	28.4	33.5	41.0
BabyVision	34.4	14.2	49.7	22.2	36.5	52.3/43.3
General VQA
RealWorldQA	83.3	77.0	83.3	81.3	81.0	83.9
MMStar	77.1	73.2	83.1	78.7	80.5	83.8
HallusionBench	65.2	64.1	68.6	66.7	69.8	71.4
MMBenchEN-DEV-v1.1	88.2	89.2	93.7	89.7	94.2	93.7
SimpleVQA	55.8	65.7	73.2	61.3	71.2	67.1
Text Recognition and Document Understanding
OmniDocBench1.5	85.7	87.7	88.5	84.5	88.8	90.8
CharXiv(RQ)	82.1	68.5	81.4	66.1	77.5	80.8
MMLongBench-Doc	–	61.9	60.5	56.2	58.5	61.5
CC-OCR	70.3	76.9	79.0	81.5	79.7	82.0
AI2D_TEST	92.2	87.7	94.1	89.2	90.8	93.9
OCRBench	80.7	85.8	90.4	87.5	92.3	93.1
Spatial Intelligence
ERQA	59.8	46.8	70.5	52.5	–	67.5
CountBench	91.9	90.6	97.3	93.7	94.1	97.2
RefCOCO(avg)	–	–	84.1	91.1	87.8	92.3
ODInW13	–	–	46.3	43.2	–	47.0
EmbSpatialBench	81.3	75.7	61.2	84.3	77.4	84.5
RefSpatialBench	–	–	65.5	69.9	–	73.6
LingoQA	68.8	78.8	72.8	66.8	68.2	81.6
V*	75.9	67.0	88.0	85.9	77.0	95.8/91.1
Hypersim	–	–	–	11.0	–	12.5
SUNRGBD	–	–	–	34.9	–	38.3
Nuscene	–	–	–	13.9	–	16.0
Video Understanding
VideoMME(w sub.)	86	77.6	88.4	83.8	87.4	87.5
VideoMME(w/o sub.)	85.8	81.4	87.7	79.0	83.2	83.7
VideoMMMU	85.9	84.4	87.6	80.0	86.6	84.7
MLVU (M-Avg)	85.6	81.7	83.0	83.8	85.0	86.7
MVBench	78.1	67.2	74.1	75.2	73.5	77.6
LVBench	73.7	57.3	76.2	63.6	75.9	75.5
MMVU	80.8	77.3	77.5	71.1	80.4	75.4
Visual Agent
ScreenSpot Pro	–	45.7	72.7	62.0	–	65.6
OSWorld-Verified	38.2	66.3	–	38.1	63.3	62.2
AndroidWorld	–	–	–	63.7	–	66.8
Medical VQA
SLAKE	76.9	76.4	81.3	54.7	81.6	79.9
PMC-VQA	58.9	59.9	62.3	41.2	63.3	64.2
MedXpertQA-MM	73.3	63.6	76.0	47.6	65.3	70.0

2、其他参数更小的模型

0.8B / 2B → 极致轻量、快速响应，端侧设备首选
4B → 轻量级 Agent 的惊喜之选，多模态能力出众
9B → 体量精简，实力已逼近更大规模模型

🚀 即刻体验：
📦 Hugging Face: https://huggingface.co/collections/Qwen/qwen35
📦 ModelScope: https://modelscope.cn/collections/Qwen/Qwen35

从文本指标上看，qwen3.5 9b（dense模型）的效果和上一代的qwen3-30BA3B-Thinkging-2507的效果已经相当了：

在VL指标上看，qwen3.5 9b/4b能力已经是超过上一代的qwen3-vl模型（比如图片理解、文档理解、视频理解等，具体参考https://modelscope.cn/models/Qwen/Qwen3.5-9B）：

Reference

[1] Qwen3.5：更少激活参数，更强智能体能力
[2] https://github.com/QwenLM/Qwen3.5?spm=a2ty_o06.30285417.0.0.72bcc921bSC8dm&file=Qwen3.5
[3] https://qwen.ai/blog?id=qwen3.5
[4] https://modelscope.cn/models/Qwen/Qwen3.5-397B-A17B
[5] https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF
[6] Qwen3.5 Preview 代码解析（PR #43830）
[7] https://github.com/huggingface/transformers/pull/43830
[8] https://huggingface.co/Qwen/Qwen3.5-4B 有安装部署库注意事项
[9] [Bug]: Qwen3.5-9B (BF16/AWQ) Illegal Memory Access in vLLM v0.17.0 (WSL2/RTX3090 Ti) #36408：
https://github.com/vllm-project/vllm/issues/36408

查看全文

http://www.jsqmd.com/news/525017/