【MLLM】Qwen3.5模型和推理优化
note
- Qwen3.5模型基于混合结构,397B总参/17B激活,能力匹配 >1T 参数的 Qwen3-Max;原生多模态设计,同量级下多模态任务表现优于 Qwen3-VL;覆盖 201 种语言;在代码生成、智能体推理与多模态理解方面表现卓越;
- 截止20260220,还没公布Qwen3.5的paper,但从PR信息来看:
- Qwen-3.5 就是多模态版的 Qwen3 Next,即把 ViT + PatchMerger 接上 Qwen3 Next。自然地,模型也支持 Text-Only 的输出。
- Qwen-3.5-MoE 在 Qwen-3.5 基础上将 LLM Backbone 的 FFN 替换为 Qwen3 风格的 MoE(Top-K Router + Multi-Expert + Shared Expert)
文章目录
- note
- 一、Qwen3.5模型
- 1、效率优化
- 2、泛化能力提升
- 3、多模态能力提升
- 二、LLM infra优化
- 三、推理优化
- 四、模型效果
- 1、Qwen3.5-397B-A17B模型
- (1)文本效果
- (2)视觉能力
- 2、其他参数更小的模型
- Reference
一、Qwen3.5模型
基本信息
- 类型:带视觉编码器的因果语言模型
- 训练阶段:预训练与后训练
语言模型参数
- 参数总量:3970亿
- 激活参数量:170亿
- 隐藏层维度:4096
- Token嵌入维度:248320(已填充)
- 层数:60
- 隐藏层结构:
15 * (3 * (门控 DeltaNet -> MoE) -> 1 * (门控注意力 -> MoE))
- 隐藏层结构:
门控 DeltaNet 模块
- 线性注意力头数量:
- V(值)头:64
- QK(查询-键)头:16
- 头维度:128
门控注意力模块
- 注意力头数量:
- Q(查询)头:32
- KV(键-值)头:2
- 头维度:256
- 旋转位置嵌入维度:64
混合专家系统(MoE)
- 专家总数:512
- 激活专家数:10个路由专家 + 1个共享专家
- 专家中间层维度:1024
输出与训练
- 语言模型输出维度:248320(已填充)
- MTP(多步训练策略):采用多步训练
上下文长度
- 原生支持:262,144个token
- 可扩展至:最多1,010,000个token
1、效率优化
在 32k 上下文长度下,Qwen3.5-397B-A17B 的吞吐量达到 Qwen3-Max 的 8.6 倍,同时保持相当的性能表现。这得益于 Next 混合架构的三项关键设计:
- 更高稀疏度的 MoE:单次推理仅激活 17B 参数,按需调用专家模块;
- 门控 DeltaNet 与门控注意力混合机制:兼顾长序列处理速度与推理质量;
- 多 token 预测:单次前向推理预测多个 token,显著提升生成效率
2、泛化能力提升
在同等规模下,Qwen3.5-397B-A17B 超越 Qwen3-VL,得益于三项设计:
- 原生多模态融合:通过训练阶段的早期文本-视觉融合,视觉与语言在统一表征空间中联合学习,提升 GUI 理解、视频分析等跨模态任务的连贯性;
- 多语言覆盖扩展:训练数据覆盖语言从 119 种扩展至 201 种,强化全球用户的语言表达理解;
- 词表扩容至 250k:编解码效率提升 10–60%,尤其改善长尾语言与复杂表达的 tokenization 效果。
3、多模态能力提升
过去的多模态模型通常是:“视觉编码器 + 语言模型”的拼接:图片先被转成特征,再喂给语言模型理解。我们在 Qwen3.5-397B-A17B 训练阶段就把文本和视觉数据融合,让模型在统一的空间里同时学习“看”和“说”。一个模型,端到端,全搞定——从视觉推理、空间定位到 GUI 操作与视频理解,任务连贯性显著提升。
依托覆盖图像、视频、STEM 与 GUI 的多元视觉数据训练,Qwen3.5 在同等规模下超越 Qwen3-VL,真正迈向原生多模态 Agents。
二、LLM infra优化
通过训推分离架构的解耦式设计,该框架显著提升了硬件利用率,实现了动态负载均衡和细粒度的故障恢复。配合 FP8 训推、Rollout 路由回放、投机采样以及多轮 Rollout 锁定等技术,我们进一步优化了系统吞吐,提高了训推一致性。
通过系统与算法协同设计,该框架在严格控制样本陈旧性的基础上有效缓解了数据长尾问题,提高了训练曲线的稳定性和性能上限。
框架面向原生智能体工作流设计,能够实现稳定、无缝的多轮环境交互,消除了框架层的调度中断。这种解耦设计使得系统能够扩展百万级规模的 Agent 脚手架与环境,从而显著增强模型的泛化能力。上述优化最终取得了 3×–5× 的端到端加速,展现了卓越的稳定性、高效率与可扩展性。
三、推理优化
阿里这次发布的 Qwen3.5-397B-A17B 是个 3970 亿参数的多模态推理模型(实际工作时用 170 亿活跃参数),原本完整版要占 807GB 硬盘空间。Unsloth 通过 Dynamic 2.0 量化技术,把模型压缩到 214GB,让单张 24GB 显卡配合 256GB 内存就能跑到 25 tokens/秒。
和传统量化方法不同,Dynamic 2.0 不是简单粗暴地把所有层都压缩到 4-bit,而是采用混合精度策略:把对模型性能影响大的关键层保持在 8 或 16-bit,只把次要层压缩到 4-bit。这种“智能压缩”让模型体积大幅缩小的同时,还能保住大部分性能。
链接:https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF(一定一定要注意不要直接下载,这个目录下有很多模型,Dynamic量化模型只有94GB,但是文件夹除了这个模型以外还有其他3/4/5/6/7/8bit分组量化模型)
四、模型效果
1、Qwen3.5-397B-A17B模型
(1)文本效果
| 评测维度 | GPT5.2 | Claude 4.5 Opus | Gemini-3 Pro | Qwen3-Max-Thinking | K2.5-1T-A32B | Qwen3.5-397B-A17B |
|---|---|---|---|---|---|---|
| Knowledge | ||||||
| MMLU-Pro | 87.4 | 89.5 | 89.8 | 85.7 | 87.1 | 87.8 |
| MMLU-Redux | 95.0 | 95.6 | 95.9 | 92.8 | 94.5 | 94.9 |
| SuperGPQA | 67.9 | 70.6 | 74.0 | 67.3 | 69.2 | 70.4 |
| C-Eval | 90.5 | 92.2 | 93.4 | 93.7 | 94.0 | 93.0 |
| Instruction Following | ||||||
| IFEval | 94.8 | 90.9 | 93.5 | 93.4 | 93.9 | 92.6 |
| IFBench | 75.4 | 58.0 | 70.4 | 70.9 | 70.2 | 76.5 |
| MultiChallenge | 57.9 | 54.2 | 64.2 | 63.3 | 62.7 | 67.6 |
| Long Context | ||||||
| AA-LCR | 72.7 | 74.0 | 70.7 | 68.7 | 70.0 | 68.7 |
| LongBench v2 | 54.5 | 64.4 | 68.2 | 60.6 | 61.0 | 63.2 |
| STEM | ||||||
| GPQA | 92.4 | 87.0 | 91.9 | 87.4 | 87.6 | 88.4 |
| HLE | 35.5 | 30.8 | 37.5 | 30.2 | 30.1 | 28.7 |
| HLE-Verified | 43.3 | 38.8 | 48 | 37.6 | – | 37.6 |
| Reasoning | ||||||
| LiveCodeBench v6 | 87.7 | 84.8 | 90.7 | 85.9 | 85.0 | 83.6 |
| HMMT Feb 25 | 99.4 | 92.9 | 97.3 | 98.0 | 95.4 | 94.8 |
| HMMT Nov 25 | 100 | 93.3 | 93.3 | 94.7 | 91.1 | 92.7 |
| IMOAnswerBench | 86.3 | 84.0 | 83.3 | 83.9 | 81.8 | 80.9 |
| AIME26 | 96.7 | 93.3 | 90.6 | 93.3 | 93.3 | 91.3 |
| General Agent | ||||||
| BFCL-V4 | 63.1 | 77.5 | 72.5 | 67.7 | 68.3 | 72.9 |
| TAU2-Bench | 87.1 | 91.6 | 85.4 | 84.6 | 77.0 | 86.7 |
| VITA-Bench | 38.2 | 56.3 | 51.6 | 40.9 | 41.9 | 49.7 |
| DeepPlanning | 44.6 | 33.9 | 23.3 | 28.7 | 14.5 | 34.3 |
| Tool Decathlon | 43.8 | 43.5 | 36.4 | 18.8 | 27.8 | 38.3 |
| MCP-Mark | 57.5 | 42.3 | 53.9 | 33.5 | 29.5 | 46.1 |
| Search Agent | ||||||
| HLE w/ tool | 45.5 | 43.4 | 45.8 | 49.8 | 50.2 | 48.3 |
| BrowseComp | 65.8 | 67.8 | 59.2 | 53.9 | –/74.9 | 69.0/78.6 |
| BrowseComp-zh | 76.1 | 62.4 | 66.8 | 60.9 | – | 70.3 |
| WideSearch | 76.8 | 76.4 | 68.0 | 57.9 | 72.7 | 74.0 |
| Seal-0 | 45.0 | 47.7 | 45.5 | 46.9 | 57.4 | 46.9 |
| Multilingualism | ||||||
| MMMLU | 89.5 | 90.1 | 90.6 | 84.4 | 86.0 | 88.5 |
| MMLU-ProX | 83.7 | 85.7 | 87.7 | 78.5 | 82.3 | 84.7 |
| NOVA-63 | 54.6 | 56.7 | 56.7 | 54.2 | 56.0 | 59.1 |
| INCLUDE | 87.5 | 86.2 | 90.5 | 82.3 | 83.3 | 85.6 |
| Global PIQA | 90.9 | 91.6 | 93.2 | 86.0 | 89.3 | 89.8 |
| PolyMATH | 62.5 | 79.0 | 81.6 | 64.7 | 43.1 | 73.3 |
| WMT24++ | 78.8 | 79.7 | 80.7 | 77.6 | 77.6 | 78.9 |
| MAXIFE | 88.4 | 79.2 | 87.5 | 84.0 | 72.8 | 88.2 |
| Coding Agent | ||||||
| SWE-bench Verified | 80.0 | 80.9 | 76.2 | 75.3 | 76.8 | 76.4 |
| SWE-bench Multilingual | 72.0 | 77.5 | 65.0 | 66.7 | 73.0 | 69.3 |
| SecCodeBench | 68.7 | 68.6 | 62.4 | 57.5 | 61.3 | 68.3 |
| Terminal Bench 2 | 54.0 | 59.3 | 54.2 | 22.5 | 50.8 | 52.5 |
(2)视觉能力
| 评测维度 | GPT5.2 | Claude 4.5 Opus | Gemini-3 Pro | Qwen3-VL-235B-A22B | K2.5-1T-A32B | Qwen3.5-397B-A17B |
|---|---|---|---|---|---|---|
| STEM and Puzzle | ||||||
| MMMU | 86.7 | 80.7 | 87.2 | 80.6 | 84.3 | 85.0 |
| MMMU-Pro | 79.5 | 70.6 | 81.0 | 69.3 | 78.5 | 79.0 |
| MathVision | 83.0 | 74.3 | 86.6 | 74.6 | 84.2 | 88.6 |
| Mathvista(mini) | 83.1 | 80.0 | 87.9 | 85.8 | 90.1 | 90.3 |
| We-Math | 79.0 | 70.0 | 86.9 | 74.8 | 84.7 | 87.9 |
| DynaMath | 86.8 | 79.7 | 85.1 | 82.8 | 84.4 | 86.3 |
| ZEROBench | 9 | 3 | 10 | 4 | 9 | 12 |
| ZEROBench_sub | 33.2 | 28.4 | 39.0 | 28.4 | 33.5 | 41.0 |
| BabyVision | 34.4 | 14.2 | 49.7 | 22.2 | 36.5 | 52.3/43.3 |
| General VQA | ||||||
| RealWorldQA | 83.3 | 77.0 | 83.3 | 81.3 | 81.0 | 83.9 |
| MMStar | 77.1 | 73.2 | 83.1 | 78.7 | 80.5 | 83.8 |
| HallusionBench | 65.2 | 64.1 | 68.6 | 66.7 | 69.8 | 71.4 |
| MMBenchEN-DEV-v1.1 | 88.2 | 89.2 | 93.7 | 89.7 | 94.2 | 93.7 |
| SimpleVQA | 55.8 | 65.7 | 73.2 | 61.3 | 71.2 | 67.1 |
| Text Recognition and Document Understanding | ||||||
| OmniDocBench1.5 | 85.7 | 87.7 | 88.5 | 84.5 | 88.8 | 90.8 |
| CharXiv(RQ) | 82.1 | 68.5 | 81.4 | 66.1 | 77.5 | 80.8 |
| MMLongBench-Doc | – | 61.9 | 60.5 | 56.2 | 58.5 | 61.5 |
| CC-OCR | 70.3 | 76.9 | 79.0 | 81.5 | 79.7 | 82.0 |
| AI2D_TEST | 92.2 | 87.7 | 94.1 | 89.2 | 90.8 | 93.9 |
| OCRBench | 80.7 | 85.8 | 90.4 | 87.5 | 92.3 | 93.1 |
| Spatial Intelligence | ||||||
| ERQA | 59.8 | 46.8 | 70.5 | 52.5 | – | 67.5 |
| CountBench | 91.9 | 90.6 | 97.3 | 93.7 | 94.1 | 97.2 |
| RefCOCO(avg) | – | – | 84.1 | 91.1 | 87.8 | 92.3 |
| ODInW13 | – | – | 46.3 | 43.2 | – | 47.0 |
| EmbSpatialBench | 81.3 | 75.7 | 61.2 | 84.3 | 77.4 | 84.5 |
| RefSpatialBench | – | – | 65.5 | 69.9 | – | 73.6 |
| LingoQA | 68.8 | 78.8 | 72.8 | 66.8 | 68.2 | 81.6 |
| V* | 75.9 | 67.0 | 88.0 | 85.9 | 77.0 | 95.8/91.1 |
| Hypersim | – | – | – | 11.0 | – | 12.5 |
| SUNRGBD | – | – | – | 34.9 | – | 38.3 |
| Nuscene | – | – | – | 13.9 | – | 16.0 |
| Video Understanding | ||||||
| VideoMME(w sub.) | 86 | 77.6 | 88.4 | 83.8 | 87.4 | 87.5 |
| VideoMME(w/o sub.) | 85.8 | 81.4 | 87.7 | 79.0 | 83.2 | 83.7 |
| VideoMMMU | 85.9 | 84.4 | 87.6 | 80.0 | 86.6 | 84.7 |
| MLVU (M-Avg) | 85.6 | 81.7 | 83.0 | 83.8 | 85.0 | 86.7 |
| MVBench | 78.1 | 67.2 | 74.1 | 75.2 | 73.5 | 77.6 |
| LVBench | 73.7 | 57.3 | 76.2 | 63.6 | 75.9 | 75.5 |
| MMVU | 80.8 | 77.3 | 77.5 | 71.1 | 80.4 | 75.4 |
| Visual Agent | ||||||
| ScreenSpot Pro | – | 45.7 | 72.7 | 62.0 | – | 65.6 |
| OSWorld-Verified | 38.2 | 66.3 | – | 38.1 | 63.3 | 62.2 |
| AndroidWorld | – | – | – | 63.7 | – | 66.8 |
| Medical VQA | ||||||
| SLAKE | 76.9 | 76.4 | 81.3 | 54.7 | 81.6 | 79.9 |
| PMC-VQA | 58.9 | 59.9 | 62.3 | 41.2 | 63.3 | 64.2 |
| MedXpertQA-MM | 73.3 | 63.6 | 76.0 | 47.6 | 65.3 | 70.0 |
2、其他参数更小的模型
- 0.8B / 2B → 极致轻量、快速响应,端侧设备首选
- 4B → 轻量级 Agent 的惊喜之选,多模态能力出众
- 9B → 体量精简,实力已逼近更大规模模型
🚀 即刻体验:
📦 Hugging Face: https://huggingface.co/collections/Qwen/qwen35
📦 ModelScope: https://modelscope.cn/collections/Qwen/Qwen35
从文本指标上看,qwen3.5 9b(dense模型)的效果和上一代的qwen3-30BA3B-Thinkging-2507的效果已经相当了:
在VL指标上看,qwen3.5 9b/4b能力已经是超过上一代的qwen3-vl模型(比如图片理解、文档理解、视频理解等,具体参考https://modelscope.cn/models/Qwen/Qwen3.5-9B):
Reference
[1] Qwen3.5:更少激活参数,更强智能体能力
[2] https://github.com/QwenLM/Qwen3.5?spm=a2ty_o06.30285417.0.0.72bcc921bSC8dm&file=Qwen3.5
[3] https://qwen.ai/blog?id=qwen3.5
[4] https://modelscope.cn/models/Qwen/Qwen3.5-397B-A17B
[5] https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF
[6] Qwen3.5 Preview 代码解析(PR #43830)
[7] https://github.com/huggingface/transformers/pull/43830
[8] https://huggingface.co/Qwen/Qwen3.5-4B 有安装部署库注意事项
[9] [Bug]: Qwen3.5-9B (BF16/AWQ) Illegal Memory Access in vLLM v0.17.0 (WSL2/RTX3090 Ti) #36408:
https://github.com/vllm-project/vllm/issues/36408
