当前位置：首页 > news >正文

【通义千问（Qwen）】视频分析与多模态模型汇总

news 2026/4/22 5:34:51

通义千问（Qwen）视频分析与多模态模型汇总

整理日期：2026-04-21
数据来源：阿里 Qwen 官方博客、HuggingFace、arXiv 技术报告、DashScope 文档
⚠️ 标注说明：✅ 已确认 / ⚠️ 部分确认 / ❌ 不支持或未开源

亲爱的朋友们，创作不容易，若对您有帮助的话，请点赞收藏加关注哦，您的关注是我持续创作的动力，谢谢大家！有问题请私信或联系邮箱：jasonai.fn@gmail.com

一、模型家族总览

Qwen 视频/多模态模型体系 │ ├── VL 系列（视觉语言，纯视频分析） │ ├── Qwen2-VL 2B / 7B / 72B │ ├── Qwen2.5-VL 3B / 7B / 32B / 72B │ └── Qwen3-VL 2B / 4B / 8B / 32B + MoE(30B-A3B, 235B-A22B) │ ├── Omni 系列（原生一体化多模态：文本+图像+视频+音频输入输出） │ ├── Qwen2.5-Omni 3B / 7B ✅ 开源 │ ├── Qwen3-Omni 30B-A3B ✅ 开源 │ ├── Qwen3-Omni-Flash 未公开规格 ❌ 仅 API │ └── Qwen3.5-Omni Plus / Flash / Light ❌ 仅 API（截至 2026-04） │ └── QVQ 系列（视觉推理，仅图像，不支持视频） ├── QVQ-72B-Preview ✅ 开源（不支持视频） └── QVQ-Max ❌ 仅 API（支持视频）

二、视频分析专项模型（VL 系列）

2.1 Qwen2-VL

项目	详情
发布时间	2024-09
模型规格	2B / 7B / 72B
开源协议	Qwen License ✅
本地部署	✅ 支持
Context 窗口	32K（可扩展至 64K，YaRN）
最大视频帧数	768 帧
视频时长	20 分钟以上
训练精度	BF16
FP8 量化	❌ 无官方版本（有 AWQ/GPTQ 社区版）
时间戳定位	✅ 支持
动态分辨率	✅ 480×480 ～ 2560×2560

架构亮点：

M-RoPE（Multimodal Rotary Position Embedding）：1D 编码文本、2D 编码图像、3D 编码视频
动态分辨率 ViT，移除绝对位置编码
训练数据约1.4 万亿 tokens

DashScope API 模型 ID：

qwen-vl-plus
qwen-vl-max

2.2 Qwen2.5-VL

项目	详情
发布时间	2025-01-28（7B/72B）；2025-03-25（32B）
模型规格	3B / 7B / 32B / 72B
开源协议	Apache 2.0 ✅
本地部署	✅ 支持
Context 窗口	32K（可扩展至 64K）
最大视频帧数	768 帧
视频时长	1 小时以上
训练精度	BF16
FP8 量化	✅ 7B（NVIDIA 官方）；✅ 72B（dynamic，RedHatAI）
时间戳定位	✅ 秒级精确
动态 FPS	✅ 训练时使用动态帧率
训练数据	4.1 万亿 tokens（较 Qwen2-VL 提升约 3 倍）

架构亮点：

ViT 引入Window Attention，效率大幅提升
mRoPE 新增绝对时间编码，实现秒级时序理解
3B 版本性能超越上代 7B 版本

基准测试（Qwen2.5-VL-7B-Instruct）：

基准	Qwen2.5-VL-7B	GPT-4o-mini
MMMU	58.6	60.0
MathVista	74.8	52.4
ChartQA	87.3	78.1
MMBench-EN	88.6	76.0

DashScope API 模型 ID：

qwen2.5-vl-7b-instruct
qwen2.5-vl-72b-instruct

2.3 Qwen3-VL ⭐ 当前最新 VL 系列

项目	详情
发布时间	2025-09-23 ～ 2025-10-21（分批）
技术报告	arXiv:2511.21631（2025-11-27）
模型规格	2B / 4B / 8B / 32B（Dense）+ 30B-A3B / 235B-A22B（MoE）
版本类型	Instruct + Thinking（全规格均有）
开源协议	Apache 2.0 ✅
本地部署	✅ 支持（vLLM / SGLang / HuggingFace Transformers）
Context 窗口	原生256K，可扩展至1M
视频时长	1～2 小时（256K）；更长（1M）
训练精度	BF16
FP8 量化	✅ 全系列官方支持（fine-grained FP8，block size 128）
时间戳定位	✅ 秒级，Text-Timestamp Alignment
长视频召回精度	256K：100%；1M：99.5%（Needle-in-a-Haystack）

发布节奏：

日期	发布内容
2025-09-23	Qwen3-VL-235B-A22B Instruct + Thinking
2025-10-04	Qwen3-VL-30B-A3B Instruct + Thinking
2025-10-15	Qwen3-VL-4B + 8B Instruct + Thinking
2025-10-21	Qwen3-VL-2B + 32B Instruct + Thinking

架构亮点：

Interleaved-MRoPE：升级版时空位置编码，长时域视频推理能力显著提升
DeepStack：多层 ViT 特征融合，细粒度视觉-文本对齐
Text-Timestamp Alignment：取代旧版 T-RoPE，秒级视频事件定位
Thinking 模式：内置推理链，适合复杂多步骤视频分析

MoE 模型说明：

模型	总参数	推理激活参数	显存需求
30B-A3B	30B	3.3B	~68 GB（全部专家权重必须载入显存）
235B-A22B	235B	22B	~520 GB（BF16）/ ~260 GB（FP8）

⚠️ MoE 关键说明：推理时虽只激活少量参数，但所有专家权重必须全部加载进显存，无法按需加载。推理计算量小，但显存占用等同于总参数量。

DashScope API 模型 ID：

qwen3-vl-2b-instruct
qwen3-vl-4b-instruct
qwen3-vl-8b-instruct
qwen3-vl-32b-instruct
qwen3-vl-30b-a3b-instruct
qwen3-vl-30b-a3b-thinking
qwen3-vl-235b-a22b-instruct
qwen3-vl-235b-a22b-thinking

三、原生一体化多模态模型（Omni 系列）

什么是"原生一体化多模态"

传统多模态模型通常是拼接式架构（视觉编码器 + LLM + 语音模块独立运行，再拼接），而 Qwen Omni 系列采用**原生一体化（End-to-End Native）**架构：

输入（文本 + 图像 + 视频 + 音频） ↓ Thinker（统一多模态理解，MoE LLM） ↓ Talker（流式语音生成） ↓ 输出（文本 + 实时语音流）

所有模态在同一模型权重内联合训练，无缝融合
TMRoPE（Time-aligned Multimodal RoPE）：同步对齐视频帧时间戳与音频时间戳
支持实时流式输出（边理解边说话）
可同时理解"画面上发生了什么"和"说话人说了什么"

3.1 Qwen2.5-Omni

项目	详情
发布时间	2025-04
模型规格	3B / 7B
开源协议	Apache 2.0 ✅
本地部署	✅ 支持
Context 窗口	32K
训练精度	BF16
FP8 量化	❌（有 AWQ INT4 版本）
视频输入	✅
音频输出	✅ 实时流式语音
音频编码器	Whisper-large-v3 衍生（16kHz，128通道 Mel 频谱）
语音输出帧率	每帧 ~40ms 音频

HuggingFace 模型 ID：

Qwen/Qwen2.5-Omni-3B
Qwen/Qwen2.5-Omni-7B

3.2 Qwen3-Omni

项目	详情
发布时间	2025-09-22
模型规格	30B-A3B（MoE）
开源协议	Apache 2.0 ✅
本地部署	✅ 支持（vLLM-Omni / SGLang / KTransformers）
Context 窗口	256K
训练精度	BF16
视频采样	2 FPS
视频输入	✅
音频输出	✅ 实时流式语音
首包延迟	音频 234ms / 视频 547ms
语音识别语言	19 种
语音合成语言	10 种
文本语言	119 种
训练数据	2 万亿 tokens（含 2000 万小时音频）
基准排名	开源 SOTA 32/36 项音视频基准

HuggingFace 模型 ID：

Qwen/Qwen3-Omni-30B-A3B-Instruct
Qwen/Qwen3-Omni-30B-A3B-Thinking

3.3 Qwen3-Omni-Flash

项目	详情
发布时间	2025-12-01
开源状态	❌ 仅 DashScope API
本地部署	❌ 不支持
参数规模	未公开
特点	Qwen3-Omni 优化版，提升语音理解精度和多语言一致性

DashScope API 模型 ID：

qwen3-omni-flash-2025-12-01

3.4 Qwen3.5-Omni ⭐ 最新旗舰（2026-03）

项目	详情
发布时间	2026-03-30
模型变体	Plus / Flash / Light
开源状态	❌暂未开源（截至 2026-04）
本地部署	❌暂不支持
Context 窗口	256K
视频支持	✅ 400+ 秒 720p @ 1FPS（约 1 小时）
音频支持	✅ 10 小时以上连续音频
架构	Hybrid-Attention MoE，Thinker + Talker 均为 MoE
语言支持	113 种（74 语言 + 39 中文方言）
语音合成	36 种语言
基准 SOTA 数量	215 项音视频基准 SOTA

视频基准（官方数据）：

基准	Qwen3.5-Omni-Plus	Gemini 3.1 Pro
VideoMME（无字幕）	81.9	—
MLVU	86.8	—
MVBench	79.0	—
LVBench	71.2	—
DailyOmni	84.6	82.7
QualcommInteractive	68.5	66.2

DashScope API 模型 ID：

qwen3.5-omni-plus
qwen3.5-omni-flash
qwen3.5-omni-light

⚠️ Qwen3.5-Omni 是目前视频+音频联合分析能力最强的 Qwen 模型，但截至 2026-04 尚未开源，无法本地部署，仅可通过 DashScope API 调用。

四、视觉推理模型（QVQ 系列）

⚠️ 重要说明：QVQ 系列不是视频分析模型

模型	视频支持	说明
QVQ-72B-Preview	❌不支持视频	仅图像推理，单轮对话，2024-12 发布
QVQ-Max	✅ 支持	升级版，支持视频，但仅 API，未开源

QVQ 系列定位为视觉推理（数学、几何、图表、逻辑推导），而非通用视频内容分析。如需本地视频分析，请选择 VL 系列。

五、全系列对比表

模型	发布时间	本地部署	视频支持	音频输出	Context	训练精度	FP8	开源
Qwen2-VL-2B/7B/72B	2024-09	✅	✅ 20min+	❌	32K	BF16	❌	✅
Qwen2.5-VL-3B/7B	2025-01	✅	✅ 1h+	❌	32K	BF16	✅(7B)	✅
Qwen2.5-VL-32B	2025-03	✅	✅ 1h+	❌	32K	BF16	⚠️社区	✅
Qwen2.5-VL-72B	2025-01	✅	✅ 1h+	❌	32K	BF16	✅	✅
Qwen3-VL-2B/4B/8B	2025-10	✅	✅ 2h+	❌	256K	BF16	✅	✅
Qwen3-VL-32B	2025-10	✅	✅ 2h+	❌	256K	BF16	✅	✅
Qwen3-VL-30B-A3B	2025-10	✅	✅ 2h+	❌	256K	BF16	✅	✅
Qwen3-VL-235B-A22B	2025-09	✅	✅ 2h+	❌	256K→1M	BF16	✅	✅
Qwen2.5-Omni-3B/7B	2025-04	✅	✅	✅ 实时	32K	BF16	❌	✅
Qwen3-Omni-30B-A3B	2025-09	✅	✅ 2FPS	✅ 实时	256K	BF16	⚠️	✅
Qwen3-Omni-Flash	2025-12	❌	✅	✅	—	—	—	❌
Qwen3.5-Omni-Plus/Flash/Light	2026-03	❌	✅ 1h+	✅ 实时	256K	—	—	❌
QVQ-72B-Preview	2024-12	✅	❌	❌	128K	BF16	❌	✅
QVQ-Max	2025	❌	✅	❌	—	—	—	❌

六、显存与数据盘需求

说明：
BF16 显存= 参数量 × 2 字节 × 1.2（激活开销）
FP8 显存= 参数量 × 1 字节 × 1.2
数据盘= 模型权重文件大小（建议预留 2× 空间用于缓存）
视频 KV Cache会额外占用显存，长视频需预留 15%+ 余量

VL 系列

模型	BF16 显存	FP8 显存	FP8 官方	数据盘	推荐 GPU
Qwen2-VL-2B	~6 GB	~3 GB	❌	~5 GB	RTX 5090 × 1
Qwen2-VL-7B	~17 GB	~9 GB	❌	~14 GB	RTX 5090 × 1
Qwen2-VL-72B	~160 GB	~82 GB	❌	~145 GB	A800 × 2 / H20 × 2
Qwen2.5-VL-3B	~8 GB	~4 GB	❌	~7 GB	RTX 5090 × 1
Qwen2.5-VL-7B	~18 GB	~9 GB	✅	~16 GB	RTX 5090 × 1
Qwen2.5-VL-32B	~70 GB	~36 GB	⚠️社区	~64 GB	A800 × 1 / H20 × 1
Qwen2.5-VL-72B	~160 GB	~82 GB	✅	~145 GB	A800 × 2 / H20 × 2
Qwen3-VL-2B	~6 GB	~3 GB	✅	~5 GB	RTX 5090 × 1
Qwen3-VL-4B	~10 GB	~5 GB	✅	~9 GB	RTX 5090 × 1
Qwen3-VL-8B	~20 GB	~10 GB	✅	~17 GB	RTX 5090 × 1
Qwen3-VL-32B	~70 GB	~36 GB	✅	~64 GB	A800 × 1 / H20 × 1
Qwen3-VL-30B-A3B ⚡	~68 GB	~34 GB	✅	~62 GB	A800 × 1 / H20 × 1
Qwen3-VL-235B-A22B ⚡	~520 GB	~260 GB	✅	~471 GB	H20 × 3（FP8）

Omni 系列（本地可部署）

模型	BF16 显存	数据盘	推荐 GPU	备注
Qwen2.5-Omni-3B	~14 GB	~12 GB	RTX 5090 × 1	含音频编码器
Qwen2.5-Omni-7B	~26 GB	~22 GB	RTX 5090 × 1 / A800 × 1	含音频编码器
Qwen3-Omni-30B-A3B	~68 GB	~62 GB	A800 × 1 / H20 × 1	MoE 全专家入显存

七、本地部署推荐方案

按 GPU 配置推荐

H20（96 GB HBM3，原生 FP8，推理专用旗舰）

GPU 配置	推荐模型	精度	适用场景
H20 × 1	Qwen3-VL-32B	BF16	单卡最优，稳定性强
H20 × 1	Qwen3-VL-30B-A3B	BF16	性价比高，推理计算量小
H20 × 1	Qwen2.5-VL-72B	FP8	旗舰精度，单卡勉强可跑
H20 × 2	Qwen2.5-VL-72B	BF16	生产首选，最成熟稳定
H20 × 2	Qwen3-VL-32B × 2副本	BF16	双副本高吞吐
H20 × 3	Qwen3-VL-235B-A22B	FP8	终极视频分析能力
H20 × 1	Qwen3-Omni-30B-A3B	BF16	视频 + 实时语音场景

A800（80 GB HBM2e，无原生 FP8）

GPU 配置	推荐模型	精度	适用场景
A800 × 1	Qwen3-VL-32B	BF16	单卡最优
A800 × 1	Qwen3-VL-30B-A3B	BF16	性价比高
A800 × 1	Qwen2.5-VL-32B	BF16	稳定备选
A800 × 2	Qwen2.5-VL-72B	BF16	双卡旗舰，生产推荐
A800 × 2	Qwen3-VL-32B × 2副本	BF16	高吞吐部署
A800 × 1	Qwen3-Omni-30B-A3B	BF16	视频 + 音频联合分析

⚠️ A800 无原生 FP8 Tensor Core，不推荐使用 FP8，BF16 更稳定

RTX 5090（32 GB GDDR7，Blackwell 原生 FP8）

GPU 配置	推荐模型	精度	适用场景
5090 × 1	Qwen3-VL-8B	BF16	单卡主力，余量充足
5090 × 1	Qwen2.5-VL-7B	BF16	稳定备选
5090 × 1	Qwen2.5-Omni-7B	BF16	视频 + 音频场景
5090 × 2	Qwen3-VL-32B	FP8	双卡跑 32B FP8

综合推荐速查

生产旗舰（最稳定）： H20 × 2 → Qwen2.5-VL-72B BF16 单卡最优： H20 × 1 → Qwen3-VL-32B BF16 性价比最优： H20 × 1 → Qwen3-VL-30B-A3B BF16 终极能力： H20 × 3 → Qwen3-VL-235B-A22B FP8 视频+音频： H20 × 1 → Qwen3-Omni-30B-A3B BF16 轻量高并发： 5090 × 1 → Qwen3-VL-8B BF16

精度选择原则

GPU	推荐精度	原因
H20	BF16，显存不足时用FP8	Hopper 架构原生支持 FP8 Tensor Core
A800	BF16	无原生 FP8，软件模拟提速有限，稳定性更重要
RTX 5090	BF16，需跑更大模型时用FP8	Blackwell 原生 FP8，精度损失可接受

八、生产部署配置参考

vLLM 部署（推荐生产框架）

H20 × 2，Qwen2.5-VL-72B，BF16（生产首选）

vllm serve Qwen/Qwen2.5-VL-72B-Instruct\--tensor-parallel-size2\--dtypebfloat16\--max-model-len32768\--gpu-memory-utilization0.90\--max-num-seqs32\--enable-prefix-caching\--media-io-kwargs'{"video": {"num_frames": -1, "fps": 1.0}}'\--served-model-name qwen-video\--port8000

H20 × 1，Qwen3-VL-32B，BF16

vllm serve Qwen/Qwen3-VL-32B-Instruct\--dtypebfloat16\--max-model-len65536\--gpu-memory-utilization0.90\--enable-prefix-caching\--media-io-kwargs'{"video": {"num_frames": -1, "fps": 1.0}}'\--port8000

H20 × 3，Qwen3-VL-235B-A22B，FP8

vllm serve Qwen/Qwen3-VL-235B-A22B-Instruct-FP8\--tensor-parallel-size3\--dtypefloat8\--max-model-len65536\--gpu-memory-utilization0.88\--media-io-kwargs'{"video": {"num_frames": -1, "fps": 1.0}}'\--port8000

RTX 5090 × 1，Qwen3-VL-8B，BF16

vllm serve Qwen/Qwen3-VL-8B-Instruct\--dtypebfloat16\--max-model-len32768\--gpu-memory-utilization0.85\--media-io-kwargs'{"video": {"num_frames": -1, "fps": 1.0}}'\--port8000

Python 调用示例

fromopenaiimportOpenAI client=OpenAI(base_url="http://localhost:8000/v1",api_key="token")response=client.chat.completions.create(model="qwen-video",messages=[{"role":"user","content":[{"type":"video_url","video_url":{"url":"file:///path/to/video.mp4"},},{"type":"text","text":"请详细描述视频中发生的事件，并给出关键时间节点"}]}],max_tokens=2048)print(response.choices[0].message.content)

生产注意事项

项目	建议
视频 FPS	内容理解建议 1fps；动作/细节分析建议 2～4fps
最大帧数	VL 系列限制 768 帧；Qwen3-VL 依 Context 动态决定
KV Cache	开启`--enable-prefix-caching`，提升重复帧命中率
显存余量	生产环境保留 ≥ 15% 显存缓冲，防止长视频 OOM
多实例	RTX 5090 建议每卡独立进程，而非单实例张量并行
框架版本	vLLM ≥ 0.6.x（Qwen2.5-VL）；vLLM ≥ 0.8.x（Qwen3-VL）
稳定性	Qwen2.5-VL-72B 生产验证最充分；Qwen3-VL 建议先测试环境验证

附：模型选型决策树

需要视频 + 实时语音？ ├─ 是 → 本地部署 → Qwen3-Omni-30B-A3B（H20/A800 × 1） └─ 否 → 纯视频分析 ↓ Context 需要超过 32K（长视频）？ ├─ 是 → Qwen3-VL 系列（256K 原生）↓ └─ 否 → Qwen2.5-VL 系列（稳定成熟）↓ 单卡还是多卡？ ├─ 单卡 H20/A800（80-96G）→ Qwen3-VL-32B BF16（首选） │ → Qwen3-VL-30B-A3B BF16（性价比） ├─ 双卡 H20/A800 → Qwen2.5-VL-72B BF16（最稳定） ├─ 3卡 H20 → Qwen3-VL-235B-A22B FP8（终极） └─ 单卡 5090（32G） → Qwen3-VL-8B BF16（轻量）

文档基于公开资料整理，模型能力及资源需求以官方最新发布为准。
参考来源：qwenlm.github.io / huggingface.co/Qwen / arXiv:2511.21631 / arXiv:2502.13923 / arXiv:2409.12191

查看全文

http://www.jsqmd.com/news/680347/