当前位置: 首页 > news >正文

【MLLM】Qwen3.5模型和推理优化

note

  • Qwen3.5模型基于混合结构,397B总参/17B激活,能力匹配 >1T 参数的 Qwen3-Max;原生多模态设计,同量级下多模态任务表现优于 Qwen3-VL;覆盖 201 种语言;在代码生成、智能体推理与多模态理解方面表现卓越;
  • 截止20260220,还没公布Qwen3.5的paper,但从PR信息来看:
    • Qwen-3.5 就是多模态版的 Qwen3 Next,即把 ViT + PatchMerger 接上 Qwen3 Next。自然地,模型也支持 Text-Only 的输出。
    • Qwen-3.5-MoE 在 Qwen-3.5 基础上将 LLM Backbone 的 FFN 替换为 Qwen3 风格的 MoE(Top-K Router + Multi-Expert + Shared Expert)

文章目录

  • note
  • 一、Qwen3.5模型
    • 1、效率优化
    • 2、泛化能力提升
    • 3、多模态能力提升
  • 二、LLM infra优化
  • 三、推理优化
  • 四、模型效果
    • 1、Qwen3.5-397B-A17B模型
      • (1)文本效果
      • (2)视觉能力
    • 2、其他参数更小的模型
  • Reference

一、Qwen3.5模型

基本信息

  • 类型:带视觉编码器的因果语言模型
  • 训练阶段:预训练与后训练

语言模型参数

  • 参数总量:3970亿
  • 激活参数量:170亿
  • 隐藏层维度:4096
  • Token嵌入维度:248320(已填充)
  • 层数:60
    • 隐藏层结构
      15 * (3 * (门控 DeltaNet -> MoE) -> 1 * (门控注意力 -> MoE))

门控 DeltaNet 模块

  • 线性注意力头数量
    • V(值)头:64
    • QK(查询-键)头:16
  • 头维度:128

门控注意力模块

  • 注意力头数量
    • Q(查询)头:32
    • KV(键-值)头:2
  • 头维度:256
  • 旋转位置嵌入维度:64

混合专家系统(MoE)

  • 专家总数:512
  • 激活专家数:10个路由专家 + 1个共享专家
  • 专家中间层维度:1024

输出与训练

  • 语言模型输出维度:248320(已填充)
  • MTP(多步训练策略):采用多步训练

上下文长度

  • 原生支持:262,144个token
  • 可扩展至:最多1,010,000个token

1、效率优化

在 32k 上下文长度下,Qwen3.5-397B-A17B 的吞吐量达到 Qwen3-Max 的 8.6 倍,同时保持相当的性能表现。这得益于 Next 混合架构的三项关键设计:

  • 更高稀疏度的 MoE:单次推理仅激活 17B 参数,按需调用专家模块;
  • 门控 DeltaNet 与门控注意力混合机制:兼顾长序列处理速度与推理质量;
  • 多 token 预测:单次前向推理预测多个 token,显著提升生成效率

2、泛化能力提升

在同等规模下,Qwen3.5-397B-A17B 超越 Qwen3-VL,得益于三项设计:

  • 原生多模态融合:通过训练阶段的早期文本-视觉融合,视觉与语言在统一表征空间中联合学习,提升 GUI 理解、视频分析等跨模态任务的连贯性;
  • 多语言覆盖扩展:训练数据覆盖语言从 119 种扩展至 201 种,强化全球用户的语言表达理解;
  • 词表扩容至 250k:编解码效率提升 10–60%,尤其改善长尾语言与复杂表达的 tokenization 效果。

3、多模态能力提升

过去的多模态模型通常是:“视觉编码器 + 语言模型”的拼接:图片先被转成特征,再喂给语言模型理解。我们在 Qwen3.5-397B-A17B 训练阶段就把文本和视觉数据融合,让模型在统一的空间里同时学习“看”和“说”。一个模型,端到端,全搞定——从视觉推理、空间定位到 GUI 操作与视频理解,任务连贯性显著提升。

依托覆盖图像、视频、STEM 与 GUI 的多元视觉数据训练,Qwen3.5 在同等规模下超越 Qwen3-VL,真正迈向原生多模态 Agents。

二、LLM infra优化

通过训推分离架构的解耦式设计,该框架显著提升了硬件利用率,实现了动态负载均衡和细粒度的故障恢复。配合 FP8 训推、Rollout 路由回放、投机采样以及多轮 Rollout 锁定等技术,我们进一步优化了系统吞吐,提高了训推一致性。

通过系统与算法协同设计,该框架在严格控制样本陈旧性的基础上有效缓解了数据长尾问题,提高了训练曲线的稳定性和性能上限。

框架面向原生智能体工作流设计,能够实现稳定、无缝的多轮环境交互,消除了框架层的调度中断。这种解耦设计使得系统能够扩展百万级规模的 Agent 脚手架与环境,从而显著增强模型的泛化能力。上述优化最终取得了 3×–5× 的端到端加速,展现了卓越的稳定性、高效率与可扩展性。

三、推理优化

阿里这次发布的 Qwen3.5-397B-A17B 是个 3970 亿参数的多模态推理模型(实际工作时用 170 亿活跃参数),原本完整版要占 807GB 硬盘空间。Unsloth 通过 Dynamic 2.0 量化技术,把模型压缩到 214GB,让单张 24GB 显卡配合 256GB 内存就能跑到 25 tokens/秒。

和传统量化方法不同,Dynamic 2.0 不是简单粗暴地把所有层都压缩到 4-bit,而是采用混合精度策略:把对模型性能影响大的关键层保持在 8 或 16-bit,只把次要层压缩到 4-bit。这种“智能压缩”让模型体积大幅缩小的同时,还能保住大部分性能。

链接:https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF(一定一定要注意不要直接下载,这个目录下有很多模型,Dynamic量化模型只有94GB,但是文件夹除了这个模型以外还有其他3/4/5/6/7/8bit分组量化模型)

四、模型效果

1、Qwen3.5-397B-A17B模型

(1)文本效果

评测维度GPT5.2Claude 4.5 OpusGemini-3 ProQwen3-Max-ThinkingK2.5-1T-A32BQwen3.5-397B-A17B
Knowledge
MMLU-Pro87.489.589.885.787.187.8
MMLU-Redux95.095.695.992.894.594.9
SuperGPQA67.970.674.067.369.270.4
C-Eval90.592.293.493.794.093.0
Instruction Following
IFEval94.890.993.593.493.992.6
IFBench75.458.070.470.970.276.5
MultiChallenge57.954.264.263.362.767.6
Long Context
AA-LCR72.774.070.768.770.068.7
LongBench v254.564.468.260.661.063.2
STEM
GPQA92.487.091.987.487.688.4
HLE35.530.837.530.230.128.7
HLE-Verified43.338.84837.637.6
Reasoning
LiveCodeBench v687.784.890.785.985.083.6
HMMT Feb 2599.492.997.398.095.494.8
HMMT Nov 2510093.393.394.791.192.7
IMOAnswerBench86.384.083.383.981.880.9
AIME2696.793.390.693.393.391.3
General Agent
BFCL-V463.177.572.567.768.372.9
TAU2-Bench87.191.685.484.677.086.7
VITA-Bench38.256.351.640.941.949.7
DeepPlanning44.633.923.328.714.534.3
Tool Decathlon43.843.536.418.827.838.3
MCP-Mark57.542.353.933.529.546.1
Search Agent
HLE w/ tool45.543.445.849.850.248.3
BrowseComp65.867.859.253.9–/74.969.0/78.6
BrowseComp-zh76.162.466.860.970.3
WideSearch76.876.468.057.972.774.0
Seal-045.047.745.546.957.446.9
Multilingualism
MMMLU89.590.190.684.486.088.5
MMLU-ProX83.785.787.778.582.384.7
NOVA-6354.656.756.754.256.059.1
INCLUDE87.586.290.582.383.385.6
Global PIQA90.991.693.286.089.389.8
PolyMATH62.579.081.664.743.173.3
WMT24++78.879.780.777.677.678.9
MAXIFE88.479.287.584.072.888.2
Coding Agent
SWE-bench Verified80.080.976.275.376.876.4
SWE-bench Multilingual72.077.565.066.773.069.3
SecCodeBench68.768.662.457.561.368.3
Terminal Bench 254.059.354.222.550.852.5

(2)视觉能力

评测维度GPT5.2Claude 4.5 OpusGemini-3 ProQwen3-VL-235B-A22BK2.5-1T-A32BQwen3.5-397B-A17B
STEM and Puzzle
MMMU86.780.787.280.684.385.0
MMMU-Pro79.570.681.069.378.579.0
MathVision83.074.386.674.684.288.6
Mathvista(mini)83.180.087.985.890.190.3
We-Math79.070.086.974.884.787.9
DynaMath86.879.785.182.884.486.3
ZEROBench93104912
ZEROBench_sub33.228.439.028.433.541.0
BabyVision34.414.249.722.236.552.3/43.3
General VQA
RealWorldQA83.377.083.381.381.083.9
MMStar77.173.283.178.780.583.8
HallusionBench65.264.168.666.769.871.4
MMBenchEN-DEV-v1.188.289.293.789.794.293.7
SimpleVQA55.865.773.261.371.267.1
Text Recognition and Document Understanding
OmniDocBench1.585.787.788.584.588.890.8
CharXiv(RQ)82.168.581.466.177.580.8
MMLongBench-Doc61.960.556.258.561.5
CC-OCR70.376.979.081.579.782.0
AI2D_TEST92.287.794.189.290.893.9
OCRBench80.785.890.487.592.393.1
Spatial Intelligence
ERQA59.846.870.552.567.5
CountBench91.990.697.393.794.197.2
RefCOCO(avg)84.191.187.892.3
ODInW1346.343.247.0
EmbSpatialBench81.375.761.284.377.484.5
RefSpatialBench65.569.973.6
LingoQA68.878.872.866.868.281.6
V*75.967.088.085.977.095.8/91.1
Hypersim11.012.5
SUNRGBD34.938.3
Nuscene13.916.0
Video Understanding
VideoMME(w sub.)8677.688.483.887.487.5
VideoMME(w/o sub.)85.881.487.779.083.283.7
VideoMMMU85.984.487.680.086.684.7
MLVU (M-Avg)85.681.783.083.885.086.7
MVBench78.167.274.175.273.577.6
LVBench73.757.376.263.675.975.5
MMVU80.877.377.571.180.475.4
Visual Agent
ScreenSpot Pro45.772.762.065.6
OSWorld-Verified38.266.338.163.362.2
AndroidWorld63.766.8
Medical VQA
SLAKE76.976.481.354.781.679.9
PMC-VQA58.959.962.341.263.364.2
MedXpertQA-MM73.363.676.047.665.370.0

2、其他参数更小的模型

  • 0.8B / 2B → 极致轻量、快速响应,端侧设备首选
  • 4B → 轻量级 Agent 的惊喜之选,多模态能力出众
  • 9B → 体量精简,实力已逼近更大规模模型

🚀 即刻体验:
📦 Hugging Face: https://huggingface.co/collections/Qwen/qwen35
📦 ModelScope: https://modelscope.cn/collections/Qwen/Qwen35

从文本指标上看,qwen3.5 9b(dense模型)的效果和上一代的qwen3-30BA3B-Thinkging-2507的效果已经相当了:

在VL指标上看,qwen3.5 9b/4b能力已经是超过上一代的qwen3-vl模型(比如图片理解、文档理解、视频理解等,具体参考https://modelscope.cn/models/Qwen/Qwen3.5-9B):

Reference

[1] Qwen3.5:更少激活参数,更强智能体能力
[2] https://github.com/QwenLM/Qwen3.5?spm=a2ty_o06.30285417.0.0.72bcc921bSC8dm&file=Qwen3.5
[3] https://qwen.ai/blog?id=qwen3.5
[4] https://modelscope.cn/models/Qwen/Qwen3.5-397B-A17B
[5] https://huggingface.co/unsloth/Qwen3.5-397B-A17B-GGUF
[6] Qwen3.5 Preview 代码解析(PR #43830)
[7] https://github.com/huggingface/transformers/pull/43830
[8] https://huggingface.co/Qwen/Qwen3.5-4B 有安装部署库注意事项
[9] [Bug]: Qwen3.5-9B (BF16/AWQ) Illegal Memory Access in vLLM v0.17.0 (WSL2/RTX3090 Ti) #36408:
https://github.com/vllm-project/vllm/issues/36408

http://www.jsqmd.com/news/525017/

相关文章:

  • 【WebAssembly 】WebAssembly 组成部分详解(0~12 段 ID 详解)
  • 如何用GPT-4和LLM提升代码漏洞检测?VulLLM框架实战解析
  • 毕业论文AI率超标怎么办?这几款降AI工具帮你顺利通关 - 我要发一区
  • 别再手动算脉宽了!STM32CubeMX + HAL库一键生成舵机控制代码(附F103/F407配置差异)
  • 多用户情况下的无人机通信轨迹和调度联合优化开源代码
  • 电缆生产厂家有哪些?2026年3月电缆生产厂家甄选参考 - 品牌2026
  • 从仿真到综合:组合逻辑环的那些坑(附避坑指南)
  • 从工程思维到产品思维:我用 AI 搭建内容生产系统的实战复盘
  • 20241305 2025-2026-2 《Python程序设计》实验1报告
  • 检索大赛 实验3 豆包实验结果
  • PSO-LightGBM-ABKDE粒子群算法优化轻量级梯度提升机自适应带宽核密度估计多变量回归区间预测Matlab实现
  • 光电经纬仪与AI:能捕获隐身战机的“最后一瞥”吗?
  • Java用集合实现斗地主小游戏 - Kight
  • 多邻国客服咨询AI流量赋能,重塑智能体验新标杆 - 王老吉弄
  • 90%的AI创业BP被VC秒删,因为创始人犯了同一个致命错误
  • 2026年玻纤天花板厂家权威推荐榜:高性价比品牌+优质供应商全解析 - 品牌推荐大师1
  • OSM道路数据里的‘fclass’字段到底怎么用?一份给GIS新手的标签解读与筛选指南
  • 上海忱臻客服咨询AI流量赋能,重塑智能体验新标杆 - 王老吉弄
  • 14|多模态入门:图像/文档如何进入工作流
  • TI毫米波雷达IWR1843的基础知识
  • OpenCL零基础笔记3
  • 云曦26开学考复现
  • 生产环境同时连接数上升问题分析
  • 单细胞数据分析避坑指南:如何用Seurat V5搞定细胞周期矫正与双胞体过滤
  • 【Win10 部署私有 Git 服务器 (Gogs) 完全指南】
  • 力扣刷题——226.翻转二叉树
  • 鸿蒙开发工程师职位深度解析与面试指南
  • 人工智能赋能中小企业高质量发展研究报告
  • 进程的控制
  • 正点原子ATK-Logic软件实战:从DL16PLUS硬件连接到SPI协议深度解码