当前位置: 首页 > news >正文

【通义千问(Qwen)】视频分析与多模态模型汇总

通义千问(Qwen)视频分析与多模态模型汇总

整理日期:2026-04-21
数据来源:阿里 Qwen 官方博客、HuggingFace、arXiv 技术报告、DashScope 文档
⚠️ 标注说明:✅ 已确认 / ⚠️ 部分确认 / ❌ 不支持或未开源


亲爱的朋友们,创作不容易,若对您有帮助的话,请点赞收藏加关注哦,您的关注是我持续创作的动力,谢谢大家!有问题请私信或联系邮箱:jasonai.fn@gmail.com

目录

  1. 模型家族总览
  2. 视频分析专项模型(VL 系列)
  3. 原生一体化多模态模型(Omni 系列)
  4. 视觉推理模型(QVQ 系列)
  5. 全系列对比表
  6. 显存与数据盘需求
  7. 本地部署推荐方案
  8. 生产部署配置参考

一、模型家族总览

Qwen 视频/多模态模型体系 │ ├── VL 系列(视觉语言,纯视频分析) │ ├── Qwen2-VL 2B / 7B / 72B │ ├── Qwen2.5-VL 3B / 7B / 32B / 72B │ └── Qwen3-VL 2B / 4B / 8B / 32B + MoE(30B-A3B, 235B-A22B) │ ├── Omni 系列(原生一体化多模态:文本+图像+视频+音频输入输出) │ ├── Qwen2.5-Omni 3B / 7B ✅ 开源 │ ├── Qwen3-Omni 30B-A3B ✅ 开源 │ ├── Qwen3-Omni-Flash 未公开规格 ❌ 仅 API │ └── Qwen3.5-Omni Plus / Flash / Light ❌ 仅 API(截至 2026-04) │ └── QVQ 系列(视觉推理,仅图像,不支持视频) ├── QVQ-72B-Preview ✅ 开源(不支持视频) └── QVQ-Max ❌ 仅 API(支持视频)

二、视频分析专项模型(VL 系列)

2.1 Qwen2-VL

项目详情
发布时间2024-09
模型规格2B / 7B / 72B
开源协议Qwen License ✅
本地部署✅ 支持
Context 窗口32K(可扩展至 64K,YaRN)
最大视频帧数768 帧
视频时长20 分钟以上
训练精度BF16
FP8 量化❌ 无官方版本(有 AWQ/GPTQ 社区版)
时间戳定位✅ 支持
动态分辨率✅ 480×480 ~ 2560×2560

架构亮点:

  • M-RoPE(Multimodal Rotary Position Embedding):1D 编码文本、2D 编码图像、3D 编码视频
  • 动态分辨率 ViT,移除绝对位置编码
  • 训练数据约1.4 万亿 tokens

DashScope API 模型 ID:

  • qwen-vl-plus
  • qwen-vl-max

2.2 Qwen2.5-VL

项目详情
发布时间2025-01-28(7B/72B);2025-03-25(32B)
模型规格3B / 7B / 32B / 72B
开源协议Apache 2.0 ✅
本地部署✅ 支持
Context 窗口32K(可扩展至 64K)
最大视频帧数768 帧
视频时长1 小时以上
训练精度BF16
FP8 量化✅ 7B(NVIDIA 官方);✅ 72B(dynamic,RedHatAI)
时间戳定位✅ 秒级精确
动态 FPS✅ 训练时使用动态帧率
训练数据4.1 万亿 tokens(较 Qwen2-VL 提升约 3 倍)

架构亮点:

  • ViT 引入Window Attention,效率大幅提升
  • mRoPE 新增绝对时间编码,实现秒级时序理解
  • 3B 版本性能超越上代 7B 版本

基准测试(Qwen2.5-VL-7B-Instruct):

基准Qwen2.5-VL-7BGPT-4o-mini
MMMU58.660.0
MathVista74.852.4
ChartQA87.378.1
MMBench-EN88.676.0

DashScope API 模型 ID:

  • qwen2.5-vl-7b-instruct
  • qwen2.5-vl-72b-instruct

2.3 Qwen3-VL ⭐ 当前最新 VL 系列

项目详情
发布时间2025-09-23 ~ 2025-10-21(分批)
技术报告arXiv:2511.21631(2025-11-27)
模型规格2B / 4B / 8B / 32B(Dense)+ 30B-A3B / 235B-A22B(MoE)
版本类型Instruct + Thinking(全规格均有)
开源协议Apache 2.0 ✅
本地部署✅ 支持(vLLM / SGLang / HuggingFace Transformers)
Context 窗口原生256K,可扩展至1M
视频时长1~2 小时(256K);更长(1M)
训练精度BF16
FP8 量化✅ 全系列官方支持(fine-grained FP8,block size 128)
时间戳定位✅ 秒级,Text-Timestamp Alignment
长视频召回精度256K:100%;1M:99.5%(Needle-in-a-Haystack)

发布节奏:

日期发布内容
2025-09-23Qwen3-VL-235B-A22B Instruct + Thinking
2025-10-04Qwen3-VL-30B-A3B Instruct + Thinking
2025-10-15Qwen3-VL-4B + 8B Instruct + Thinking
2025-10-21Qwen3-VL-2B + 32B Instruct + Thinking

架构亮点:

  • Interleaved-MRoPE:升级版时空位置编码,长时域视频推理能力显著提升
  • DeepStack:多层 ViT 特征融合,细粒度视觉-文本对齐
  • Text-Timestamp Alignment:取代旧版 T-RoPE,秒级视频事件定位
  • Thinking 模式:内置推理链,适合复杂多步骤视频分析

MoE 模型说明:

模型总参数推理激活参数显存需求
30B-A3B30B3.3B~68 GB(全部专家权重必须载入显存)
235B-A22B235B22B~520 GB(BF16)/ ~260 GB(FP8)

⚠️ MoE 关键说明:推理时虽只激活少量参数,但所有专家权重必须全部加载进显存,无法按需加载。推理计算量小,但显存占用等同于总参数量。

DashScope API 模型 ID:

  • qwen3-vl-2b-instruct
  • qwen3-vl-4b-instruct
  • qwen3-vl-8b-instruct
  • qwen3-vl-32b-instruct
  • qwen3-vl-30b-a3b-instruct
  • qwen3-vl-30b-a3b-thinking
  • qwen3-vl-235b-a22b-instruct
  • qwen3-vl-235b-a22b-thinking

三、原生一体化多模态模型(Omni 系列)

什么是"原生一体化多模态"

传统多模态模型通常是拼接式架构(视觉编码器 + LLM + 语音模块独立运行,再拼接),而 Qwen Omni 系列采用**原生一体化(End-to-End Native)**架构:

输入(文本 + 图像 + 视频 + 音频) ↓ Thinker(统一多模态理解,MoE LLM) ↓ Talker(流式语音生成) ↓ 输出(文本 + 实时语音流)
  • 所有模态在同一模型权重内联合训练,无缝融合
  • TMRoPE(Time-aligned Multimodal RoPE):同步对齐视频帧时间戳与音频时间戳
  • 支持实时流式输出(边理解边说话)
  • 可同时理解"画面上发生了什么"和"说话人说了什么"

3.1 Qwen2.5-Omni

项目详情
发布时间2025-04
模型规格3B / 7B
开源协议Apache 2.0 ✅
本地部署✅ 支持
Context 窗口32K
训练精度BF16
FP8 量化❌(有 AWQ INT4 版本)
视频输入
音频输出✅ 实时流式语音
音频编码器Whisper-large-v3 衍生(16kHz,128通道 Mel 频谱)
语音输出帧率每帧 ~40ms 音频

HuggingFace 模型 ID:

  • Qwen/Qwen2.5-Omni-3B
  • Qwen/Qwen2.5-Omni-7B

3.2 Qwen3-Omni

项目详情
发布时间2025-09-22
模型规格30B-A3B(MoE)
开源协议Apache 2.0 ✅
本地部署✅ 支持(vLLM-Omni / SGLang / KTransformers)
Context 窗口256K
训练精度BF16
视频采样2 FPS
视频输入
音频输出✅ 实时流式语音
首包延迟音频 234ms / 视频 547ms
语音识别语言19 种
语音合成语言10 种
文本语言119 种
训练数据2 万亿 tokens(含 2000 万小时音频)
基准排名开源 SOTA 32/36 项音视频基准

HuggingFace 模型 ID:

  • Qwen/Qwen3-Omni-30B-A3B-Instruct
  • Qwen/Qwen3-Omni-30B-A3B-Thinking

3.3 Qwen3-Omni-Flash

项目详情
发布时间2025-12-01
开源状态❌ 仅 DashScope API
本地部署❌ 不支持
参数规模未公开
特点Qwen3-Omni 优化版,提升语音理解精度和多语言一致性

DashScope API 模型 ID:

  • qwen3-omni-flash-2025-12-01

3.4 Qwen3.5-Omni ⭐ 最新旗舰(2026-03)

项目详情
发布时间2026-03-30
模型变体Plus / Flash / Light
开源状态暂未开源(截至 2026-04)
本地部署暂不支持
Context 窗口256K
视频支持✅ 400+ 秒 720p @ 1FPS(约 1 小时)
音频支持✅ 10 小时以上连续音频
架构Hybrid-Attention MoE,Thinker + Talker 均为 MoE
语言支持113 种(74 语言 + 39 中文方言)
语音合成36 种语言
基准 SOTA 数量215 项音视频基准 SOTA

视频基准(官方数据):

基准Qwen3.5-Omni-PlusGemini 3.1 Pro
VideoMME(无字幕)81.9
MLVU86.8
MVBench79.0
LVBench71.2
DailyOmni84.682.7
QualcommInteractive68.566.2

DashScope API 模型 ID:

  • qwen3.5-omni-plus
  • qwen3.5-omni-flash
  • qwen3.5-omni-light

⚠️ Qwen3.5-Omni 是目前视频+音频联合分析能力最强的 Qwen 模型,但截至 2026-04 尚未开源,无法本地部署,仅可通过 DashScope API 调用。


四、视觉推理模型(QVQ 系列)

⚠️ 重要说明:QVQ 系列不是视频分析模型

模型视频支持说明
QVQ-72B-Preview不支持视频仅图像推理,单轮对话,2024-12 发布
QVQ-Max✅ 支持升级版,支持视频,但仅 API,未开源

QVQ 系列定位为视觉推理(数学、几何、图表、逻辑推导),而非通用视频内容分析。如需本地视频分析,请选择 VL 系列。


五、全系列对比表

模型发布时间本地部署视频支持音频输出Context训练精度FP8开源
Qwen2-VL-2B/7B/72B2024-09✅ 20min+32KBF16
Qwen2.5-VL-3B/7B2025-01✅ 1h+32KBF16✅(7B)
Qwen2.5-VL-32B2025-03✅ 1h+32KBF16⚠️社区
Qwen2.5-VL-72B2025-01✅ 1h+32KBF16
Qwen3-VL-2B/4B/8B2025-10✅ 2h+256KBF16
Qwen3-VL-32B2025-10✅ 2h+256KBF16
Qwen3-VL-30B-A3B2025-10✅ 2h+256KBF16
Qwen3-VL-235B-A22B2025-09✅ 2h+256K→1MBF16
Qwen2.5-Omni-3B/7B2025-04✅ 实时32KBF16
Qwen3-Omni-30B-A3B2025-09✅ 2FPS✅ 实时256KBF16⚠️
Qwen3-Omni-Flash2025-12
Qwen3.5-Omni-Plus/Flash/Light2026-03✅ 1h+✅ 实时256K
QVQ-72B-Preview2024-12128KBF16
QVQ-Max2025

六、显存与数据盘需求

说明:

  • BF16 显存= 参数量 × 2 字节 × 1.2(激活开销)
  • FP8 显存= 参数量 × 1 字节 × 1.2
  • 数据盘= 模型权重文件大小(建议预留 2× 空间用于缓存)
  • 视频 KV Cache会额外占用显存,长视频需预留 15%+ 余量

VL 系列

模型BF16 显存FP8 显存FP8 官方数据盘推荐 GPU
Qwen2-VL-2B~6 GB~3 GB~5 GBRTX 5090 × 1
Qwen2-VL-7B~17 GB~9 GB~14 GBRTX 5090 × 1
Qwen2-VL-72B~160 GB~82 GB~145 GBA800 × 2 / H20 × 2
Qwen2.5-VL-3B~8 GB~4 GB~7 GBRTX 5090 × 1
Qwen2.5-VL-7B~18 GB~9 GB~16 GBRTX 5090 × 1
Qwen2.5-VL-32B~70 GB~36 GB⚠️社区~64 GBA800 × 1 / H20 × 1
Qwen2.5-VL-72B~160 GB~82 GB~145 GBA800 × 2 / H20 × 2
Qwen3-VL-2B~6 GB~3 GB~5 GBRTX 5090 × 1
Qwen3-VL-4B~10 GB~5 GB~9 GBRTX 5090 × 1
Qwen3-VL-8B~20 GB~10 GB~17 GBRTX 5090 × 1
Qwen3-VL-32B~70 GB~36 GB~64 GBA800 × 1 / H20 × 1
Qwen3-VL-30B-A3B ⚡~68 GB~34 GB~62 GBA800 × 1 / H20 × 1
Qwen3-VL-235B-A22B ⚡~520 GB~260 GB~471 GBH20 × 3(FP8)

Omni 系列(本地可部署)

模型BF16 显存数据盘推荐 GPU备注
Qwen2.5-Omni-3B~14 GB~12 GBRTX 5090 × 1含音频编码器
Qwen2.5-Omni-7B~26 GB~22 GBRTX 5090 × 1 / A800 × 1含音频编码器
Qwen3-Omni-30B-A3B~68 GB~62 GBA800 × 1 / H20 × 1MoE 全专家入显存

七、本地部署推荐方案

按 GPU 配置推荐

H20(96 GB HBM3,原生 FP8,推理专用旗舰)
GPU 配置推荐模型精度适用场景
H20 × 1Qwen3-VL-32BBF16单卡最优,稳定性强
H20 × 1Qwen3-VL-30B-A3BBF16性价比高,推理计算量小
H20 × 1Qwen2.5-VL-72BFP8旗舰精度,单卡勉强可跑
H20 × 2Qwen2.5-VL-72BBF16生产首选,最成熟稳定
H20 × 2Qwen3-VL-32B × 2副本BF16双副本高吞吐
H20 × 3Qwen3-VL-235B-A22BFP8终极视频分析能力
H20 × 1Qwen3-Omni-30B-A3BBF16视频 + 实时语音场景
A800(80 GB HBM2e,无原生 FP8)
GPU 配置推荐模型精度适用场景
A800 × 1Qwen3-VL-32BBF16单卡最优
A800 × 1Qwen3-VL-30B-A3BBF16性价比高
A800 × 1Qwen2.5-VL-32BBF16稳定备选
A800 × 2Qwen2.5-VL-72BBF16双卡旗舰,生产推荐
A800 × 2Qwen3-VL-32B × 2副本BF16高吞吐部署
A800 × 1Qwen3-Omni-30B-A3BBF16视频 + 音频联合分析

⚠️ A800 无原生 FP8 Tensor Core,不推荐使用 FP8,BF16 更稳定

RTX 5090(32 GB GDDR7,Blackwell 原生 FP8)
GPU 配置推荐模型精度适用场景
5090 × 1Qwen3-VL-8BBF16单卡主力,余量充足
5090 × 1Qwen2.5-VL-7BBF16稳定备选
5090 × 1Qwen2.5-Omni-7BBF16视频 + 音频场景
5090 × 2Qwen3-VL-32BFP8双卡跑 32B FP8

综合推荐速查

生产旗舰(最稳定): H20 × 2 → Qwen2.5-VL-72B BF16 单卡最优: H20 × 1 → Qwen3-VL-32B BF16 性价比最优: H20 × 1 → Qwen3-VL-30B-A3B BF16 终极能力: H20 × 3 → Qwen3-VL-235B-A22B FP8 视频+音频: H20 × 1 → Qwen3-Omni-30B-A3B BF16 轻量高并发: 5090 × 1 → Qwen3-VL-8B BF16

精度选择原则

GPU推荐精度原因
H20BF16,显存不足时用FP8Hopper 架构原生支持 FP8 Tensor Core
A800BF16无原生 FP8,软件模拟提速有限,稳定性更重要
RTX 5090BF16,需跑更大模型时用FP8Blackwell 原生 FP8,精度损失可接受

八、生产部署配置参考

vLLM 部署(推荐生产框架)

H20 × 2,Qwen2.5-VL-72B,BF16(生产首选)
vllm serve Qwen/Qwen2.5-VL-72B-Instruct\--tensor-parallel-size2\--dtypebfloat16\--max-model-len32768\--gpu-memory-utilization0.90\--max-num-seqs32\--enable-prefix-caching\--media-io-kwargs'{"video": {"num_frames": -1, "fps": 1.0}}'\--served-model-name qwen-video\--port8000
H20 × 1,Qwen3-VL-32B,BF16
vllm serve Qwen/Qwen3-VL-32B-Instruct\--dtypebfloat16\--max-model-len65536\--gpu-memory-utilization0.90\--enable-prefix-caching\--media-io-kwargs'{"video": {"num_frames": -1, "fps": 1.0}}'\--port8000
H20 × 3,Qwen3-VL-235B-A22B,FP8
vllm serve Qwen/Qwen3-VL-235B-A22B-Instruct-FP8\--tensor-parallel-size3\--dtypefloat8\--max-model-len65536\--gpu-memory-utilization0.88\--media-io-kwargs'{"video": {"num_frames": -1, "fps": 1.0}}'\--port8000
RTX 5090 × 1,Qwen3-VL-8B,BF16
vllm serve Qwen/Qwen3-VL-8B-Instruct\--dtypebfloat16\--max-model-len32768\--gpu-memory-utilization0.85\--media-io-kwargs'{"video": {"num_frames": -1, "fps": 1.0}}'\--port8000

Python 调用示例

fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:8000/v1",api_key="token")response=client.chat.completions.create(model="qwen-video",messages=[{"role":"user","content":[{"type":"video_url","video_url":{"url":"file:///path/to/video.mp4"},},{"type":"text","text":"请详细描述视频中发生的事件,并给出关键时间节点"}]}],max_tokens=2048)print(response.choices[0].message.content)

生产注意事项

项目建议
视频 FPS内容理解建议 1fps;动作/细节分析建议 2~4fps
最大帧数VL 系列限制 768 帧;Qwen3-VL 依 Context 动态决定
KV Cache开启--enable-prefix-caching,提升重复帧命中率
显存余量生产环境保留 ≥ 15% 显存缓冲,防止长视频 OOM
多实例RTX 5090 建议每卡独立进程,而非单实例张量并行
框架版本vLLM ≥ 0.6.x(Qwen2.5-VL);vLLM ≥ 0.8.x(Qwen3-VL)
稳定性Qwen2.5-VL-72B 生产验证最充分;Qwen3-VL 建议先测试环境验证

附:模型选型决策树

需要视频 + 实时语音? ├─ 是 → 本地部署 → Qwen3-Omni-30B-A3B(H20/A800 × 1) └─ 否 → 纯视频分析 ↓ Context 需要超过 32K(长视频)? ├─ 是 → Qwen3-VL 系列(256K 原生)↓ └─ 否 → Qwen2.5-VL 系列(稳定成熟)↓ 单卡还是多卡? ├─ 单卡 H20/A800(80-96G)→ Qwen3-VL-32B BF16(首选) │ → Qwen3-VL-30B-A3B BF16(性价比) ├─ 双卡 H20/A800 → Qwen2.5-VL-72B BF16(最稳定) ├─ 3卡 H20 → Qwen3-VL-235B-A22B FP8(终极) └─ 单卡 5090(32G) → Qwen3-VL-8B BF16(轻量)

文档基于公开资料整理,模型能力及资源需求以官方最新发布为准。
参考来源:qwenlm.github.io / huggingface.co/Qwen / arXiv:2511.21631 / arXiv:2502.13923 / arXiv:2409.12191

http://www.jsqmd.com/news/680347/

相关文章:

  • 别再乱接排线了!J-Link V10高速信号避坑指南:线长、转接板与稳定连接实战
  • 2026年Q2乐山苏稽跷脚牛肉哪家正宗:乐山苏稽特色跷脚牛肉哪家好/乐山苏稽特色跷脚牛肉在哪/乐山苏稽特色跷脚牛肉推荐/选择指南 - 优质品牌商家
  • 容器启动慢?磁盘爆满?Docker 27存储驱动调优全解析,深度解读inode泄漏、layer膨胀与GC失效三大隐性故障
  • 老盒子焕新颜:给创维H2901-T2刷入精简ROOT固件,解锁安装第三方软件和性能提升
  • 2026年知名的东莞橱柜定制/东莞橱柜板材/东莞橱柜报价可靠供应商推荐 - 行业平台推荐
  • 从YX6300到TPA3110:我的语音播报项目实战选型与避坑全记录
  • 智慧合同管理系统是什么意思?一文讲清合同管理系统的定义、功能与核心价值
  • 2026年口碑好的茶叶礼盒/食品礼盒/抽屉礼品礼盒公司选择指南 - 行业平台推荐
  • 2026年比较好的大连家居铝型材/铝型材批发/建筑铝型材公司对比推荐 - 品牌宣传支持者
  • 2026年评价高的回信器限位开关/限位开关/双刀双掷式限位开关/防爆电气限位开关多家厂家对比分析 - 行业平台推荐
  • STM32F407实战:用CubeMX+HAL库搞定霍尔传感器FOC启动(附V/F与I/F调试心得)
  • ESP32玩转LVGL:给你的UI换个“皮肤”,SD卡里存几套字体随时切换
  • 2026年车库卷帘门技术解析:卷帘门品牌、卷帘门安装、双层保温卷帘门、商铺保温卷帘门、工业保温卷帘门、快速卷帘门选择指南 - 优质品牌商家
  • 136. 如何在 Rancher Kubernetes Engine(RKE)CLI 或 Rancher v2.x 配置的 RKE 集群中启用 CoreDNS 查询日志
  • 2026年知名的防爆电气限位开关/感应式限位开关/定位器限位开关主流厂家对比评测 - 品牌宣传支持者
  • 2026宁波园林工具配件加工厂家:割草机配件定制工厂+旋耕机配件定制工厂+宁波园林工具生产厂家+宁波五金冲压件加工厂家推 - 栗子测评
  • 2026年比较好的温州茶叶礼盒/温州酒类礼盒品牌厂家推荐 - 品牌宣传支持者
  • 2026年热门的芝麻白路边石/仿石材路边石/透水路边石优质厂家推荐榜 - 行业平台推荐
  • 你以为你在选Hermes还是OpenClaw,其实你在选择自己的工作命运
  • 137. 集群或节点配置卡在节点污染“node.cloudprovider.kubernetes.io/uninitialized”
  • 从‘删库到跑路’梗说起:聊聊rm -rf的设计哲学与Windows命令的替代方案
  • 2026车辆轮船幕墙防火阻燃密封条实力厂家推荐:车辆轮船设备密封、条幕墙密封、防火阻燃密封条 - 栗子测评
  • 云微海外短剧系统多少钱?多语言多支付搭建包上架
  • 139. 由于卸载Rancher主目录,恢复失败
  • 51单片机新手必看:Proteus里让LM016L液晶屏显示字符的保姆级教程(附完整代码)
  • 2026年质量好的阳台门窗/推拉门窗品牌厂家推荐 - 行业平台推荐
  • 保姆级教程:在Deepin/UOS上手动打包最新版QQ的deb安装包(附字体修复方案)
  • 弱口令漏洞挖掘的30个实战技巧!
  • 140. 如何使用 nginx /dbg
  • 2026年热门的推拉门窗/大连阳光房门窗/卧室门窗厂家综合对比分析 - 品牌宣传支持者