多模态诅咒:为什么大模型会看图以后,文本推理反而变弱
核心结论:所谓“多模态诅咒”不是玄学,而是文本大模型接入视觉后同时遇到的信息密度错位、参数容量竞争、跨模态对齐污染和视觉 token 稀释注意力。前沿模型正在通过原生多模态预训练、MoE 解耦和推理型视觉理解把它打破;但对中小模型和微调团队来说,它仍然是必须正面处理的工程问题。
第 0 层:30 秒理解
从 2023 年开始,很多团队都观察到一个反直觉现象:把纯文本 LLM 升级成 VLM 以后,模型会看图了,但在数学推理、代码生成、逻辑推理、纯文本问答上反而掉分。行业里常把它叫作“多模态诅咒”或“模态对齐税”。
这不是因为视觉能力天然伤害语言能力,而是因为早期做法经常是:
预训练好的视觉编码器 + 投影层 + 预训练好的文本 LLM + 少量多模态微调这条路线成本低、见效快,但它默认了一个很强的假设:只要把视觉特征投影成类似 token 的东西,语言模型就能自然使用它。实际情况没那么简单。视觉信号和文本信号的统计结构完全不同,强行对齐会让原本训练好的语言表示发生偏移。
需要先把三个判断分开:
| 判断 | 更准确的说法 |
|---|---|
| 多模态一定让文本能力下降 | 不一定。前沿模型已经通过架构和训练方式大幅缓解,部分报告声称基本消除了相对单模态模型的退化 |
| 只要模型够大就能解决 | 规模有帮助,但不是全部。数据配比、路由、token 压缩和推理预算都很关键 |
| 这个问题已经过时 | 对万亿级原生多模态模型可能不再是主矛盾,但对 7B/13B 模型、LoRA 微调、行业私有 VLM 仍然很现实 |
理解这个问题的价值不在于复述一个旧结论,而在于解释:为什么 2025 年之后的解法有效,以及为什么资源有限的团队不能直接照抄前沿模型的乐观结论。
第 1 层:诅咒的本质是四重打击
1. 信息密度不对等:视觉进入文本空间时会带来噪声
文本是人类长期压缩出来的高密度符号系统。一句话可以同时携带时间、主体、动作、因果和抽象关系。例如“红队在第二轮反超”已经把场景、事件顺序和比较关系都压缩进了几个 token。
图像不是这样。一张图片有几百万像素,其中大量信息是光照、纹理、边缘、阴影、局部颜色和背景细节。它们对识别有用,但对数学、代码、符号推理未必有用。
问题不在于视觉信息低级,而在于早期 VLM 往往把大量低级视觉特征直接投影到语言模型的 token 空间里。对一个主要在文本分布上训练出来的解码器来说,这些 embedding 很容易落在语言流形之外。模型后续做推理时,相当于要在大量不相关视觉细节中提取少量高阶语义。
因此,多模态诅咒的第一层是信息论问题:视觉原始信号的体量很大,但能直接参与语言推理的有效语义密度不够高。
2. 参数容量零和博弈:固定容量里多了一个任务世界
一个 7B 纯文本模型,绝大部分参数都服务于语言建模、知识记忆、代码模式和推理格式。加上视觉能力以后,模型还要学习空间关系、物体边界、纹理、版面、图表、OCR 和多图关系。
如果总参数量不变,训练数据又不足,能力之间就会开始竞争。视觉能力不是免费长出来的,它会占用表示空间和优化预算。这个问题在中小模型上尤其明显:模型越小,参数越像一块有限的蛋糕;多一种模态,就多一组人来分。
这也是为什么很多强 VLM 在视觉问答榜单上看起来不错,但一放到纯文本数学或代码任务上会比同底座 LLM 弱一截。它不是“不会推理”,而是原本属于文本推理的容量和训练信号被分流了。
3. 跨模态对齐污染:微调会扭曲原来的文本权重
早期路线通常先拿一个视觉编码器,再用投影层把视觉 embedding 接到 LLM 上。第一阶段可以冻结 LLM,只训练投影层;但为了获得更强的多模态融合,第二阶段往往会打开更多 LLM 参数做指令微调。
这一步风险很大。视觉 embedding 空间和文本 token 空间是异构的,微调为了让二者能对齐,会把 LLM 的注意力、MLP 和表示边界往视觉任务上拉。如果图文数据比例过高、纯文本 replay 不够、学习率过大,原本精细训练出的文本能力就会被污染。
这个现象和持续学习里的灾难性遗忘很像:模型学会了新任务,却损伤了旧任务。区别是,多模态里遗忘的不是一个普通任务,而是整个语言模型的基本盘。
4. 视觉 token 稀释注意力:上下文窗口被大量冗余 token 挤占
图片进入 Transformer 后不是一张“图片”,而是一串视觉 token。一个中等分辨率图像可能带来几百个 token,多图输入、动态分辨率、长视频会把这个数量推到几千甚至更多。
自注意力里所有 token 都参与交互:
sequence = text_tokens + vision_tokens attention_scores: [sequence_length, sequence_length]当大量视觉 token 涌入上下文,模型不仅计算更贵,关键文本指令也更容易被稀释。尤其是在长视频和多图推理里,很多视觉 token 只是重复背景、相似帧和局部纹理,却和用户真正关心的问题没有关系。
所以第四重打击不是单纯的“token 多”,而是“低价值 token 占据了高价值注意力位置”。
第 2 层:第一次范式跳跃,先学会少受伤
2023 到 2024 年,行业的第一反应不是彻底解决诅咒,而是承认它存在,然后用工程手段控制损失。最典型的做法有两类。
第一类是数据配比。多模态训练阶段不能只喂图文数据,还要持续混入足够多的纯文本、代码和数学数据,把语言能力拉住。DeepSeek-VL 一代报告里明确强调,预训练阶段至少保留 70% 语言数据;后续 DeepSeek-VL2 进入 MoE 路线后,配比变成约 70% VL 数据加 30% text-only 数据。这说明比例不是固定教条,而是服务于一个目标:防止文本基本盘被多模态训练冲垮。
第二类是冻结策略。LLaVA 这条路线的关键工程选择,是先冻结视觉编码器和语言模型,只训练一个视觉到语言的投影矩阵。这样做可以让视觉特征先适配语言空间,降低对 LLM 主体权重的扰动。
这阶段的核心思想可以概括为:
不要让视觉训练直接冲击语言模型的全部权重。这种做法有效,但天花板也明显。冻结能减少污染,也限制了深度融合;文本 replay 能止血,但不能让视觉变成推理增益。模型会看图,但更多是在“语言模型旁边挂了一个视觉接口”,还不是从内部统一理解多模态世界。
第 3 层:第二次范式跳跃,从外挂视觉到原生多模态
2024 到 2025 年,路线开始变化:不要在一个已经训练完成的文本 LLM 上强行外挂视觉,而是从一开始就让模型原生容纳多模态。
关键做法有两个。
1. 联合预训练:让参数空间从一开始就容纳多模态
后融合路线的问题是,文本模型的参数空间已经被语言任务塑形完成,视觉后来进入时只能“挤进去”。联合预训练的思路则相反:在模型还没有完全被文本占满之前,就让文本、图像、视频、语音等信号一起参与训练。
ERNIE 5.0 报告把这类问题称为多模态能力跷跷板,并强调从零开始同步训练所有模态,以缓解后融合方法里的互相伤害。这里的关键不是某个具体模型名字,而是一条架构原则:如果你希望模型最终原生多模态,就不要把多模态当成后期补丁。
2. MoE 解耦:让不同模态不再争同一组参数
混合专家架构的价值,在多模态里不仅是省算力,更是解耦能力。文本 token 可以更多激活语言专家,视觉 token 可以更多激活视觉或跨模态专家。不同模态不必在每一步都争同一套稠密参数。
这样做直接回应了第二重打击:参数容量不再是完全零和。总参数量可以很大,但每个 token 只激活其中一部分;模型获得了更大的能力池,又不必让所有模态都共享同一条计算路径。
DeepSeek-VL2 这类 MoE VLM、ERNIE 5.0 这类统一多模态路线,都在回答同一个问题:不是把视觉塞进语言模型,而是重新设计一个能容纳多模态的模型。
不过,这一阶段仍然没有完全解决所有问题。信息密度错位依然存在,视觉 token 稀释注意力也依然存在。模型能更好地容纳视觉,但不一定已经学会把视觉压缩成高密度逻辑表示。
第 4 层:第三次范式跳跃,推理型多模态把视觉变成增益
2025 到 2026 年,更重要的变化发生在推理范式上:模型不再把视觉 token 浅层编码后直接扔进生成过程,而是在输出前投入更多计算,把视觉输入消化成结构化、高密度的语义表示。
这一步重新定义了视觉的价值。视觉信息密度低,不等于视觉没有推理价值。UI 截图、图表、架构图、流程图、数学草稿、代码运行界面,本身都含有丰富的结构关系。过去的问题是模型没有花足够计算量去提取这些高阶关系。
推理型多模态模型的做法更像这样:
视觉输入 -> 感知与定位 -> OCR / 版面 / 对象关系 / 图表结构 -> 高密度中间表示 -> 逻辑推理、工具调用、代码生成、任务执行Qwen3-Omni 报告提出 Thinker-Talker 架构:Thinker 统一接收文本、图像、音频和视频输入并负责推理,Talker 负责流式语音输出。这条路线的重点是把多模态理解放进推理核心,而不是把视觉当成语言模型外部的附件。报告还声称,在相对于同系列单模态模型的文本和视觉能力上基本没有退化。
到 2026 年 4 月,Qwen3.5-Omni 又把这条线往前推了一步:报告强调 Hybrid Attention、Thinking-MoE 和超长多模态上下文,目标是在文本、视觉、音频、视频之间减少互相伤害。到 2026 年 6 月,Qwen3.7-Plus 的公开资料进一步把多模态能力和 agent 能力绑定在一起,强调从视觉感知走向深度逻辑推理,并把 GUI、CLI、代码和工作流自动化连成闭环。Qwen-VLA 则把问题从“理解多模态世界”推进到“在环境中行动”,说明视觉能力正在进入执行闭环。
Google 侧也已经不只停留在 Gemini 2.5 Pro。Gemini 3.1 Pro 和 I/O 2026 公开资料里的 Gemini 3.x 系列继续强调 advanced reasoning、native multimodality 和 agentic workflows。OpenAI 的 GPT-5.4/GPT-5-Codex、Anthropic 的 Claude Opus 4.8 也把视觉、代码、电脑使用和长任务 agent 连得更紧。它们不一定都提供“相对单模态无退化”的严格技术报告,但共同指向一个趋势:多模态能力正在成为 agent 编程和工作流自动化的核心输入,而不是聊天模型的附属功能。
这里还要单独说明 DeepSeek V4。DeepSeek 在 2026 年 4 月发布 V4 Preview,官方重点放在 1M 上下文、token-wise compression、agentic coding、structured data analysis 和前端能力上。它很重要,但不能直接作为“视觉多模态诅咒已被打破”的证据,因为官方资料没有把它定位成视觉多模态 VLM。它对本文的启发在另一层:长上下文压缩、稀疏注意力和 agentic 推理,同样是在解决“低价值 token 不要淹没高价值推理”的问题。
这说明多模态正在从负担变成飞轮。当模型能把视觉中的结构关系提炼出来,视觉就不只是干扰项,而是推理的信息源。一个 UI 截图可能比一段文字描述更准确;一张架构图可能比几百字需求更直接;一个报错页面可能把环境状态、输入输出和失败位置同时呈现出来。
关键转折点是:
浅层视觉编码:低密度 token 直接进入推理,容易稀释注意力 推理型视觉理解:先压缩成高密度语义,再参与逻辑推理第 5 层:这对中小团队意味着什么
前沿模型正在打破多模态诅咒,但这不意味着每个团队都可以忽略它。现实情况是,大多数团队做的是 7B、13B、34B 级别模型微调,或者在开源 VLM 上做行业适配。这时,多模态诅咒仍然会以很具体的方式出现。
1. 如果你在微调开源 VLM,数据配比是第一道防线
不要只用图文问答、截图问答、OCR 数据去训。你需要持续混入纯文本指令、代码、数学和领域文本数据,并在训练过程中监控文本任务。
更实用的做法是:
| 风险 | 防御方式 |
|---|---|
| 文本能力下降 | 保留 text-only replay,训练前后跑同一组文本基准 |
| LLM 权重被污染 | 先冻结 LLM,只训 projector/adapter;必要时再小学习率解冻 |
| 图文数据风格单一 | 混入不同分辨率、不同任务形态和负样本,避免模型只学会模板回答 |
| 只看多模态榜单 | 同时评估数学、代码、长文理解、领域问答和拒答能力 |
2. 如果你训练中小规模多模态模型,容量隔离不是可选项
小模型没有足够容量让所有能力共享同一套稠密参数。能做 MoE 就做 MoE;做不了完整 MoE,也要尽量用 adapter、LoRA 分组、模态专用 projector、分阶段解冻等方式减少互相污染。
核心原则是:不要让视觉任务用同样的学习率、同样的路径、同样的参数去冲击整个语言模型。
3. 如果你做长视频或多图推理,视觉 token 压缩决定上限
长视频不是把每一帧都塞进模型。多图也不是把所有 patch 原样展开。工程上必须先做压缩:
关键帧采样 -> 局部高分辨率裁剪 -> 查询相关 token 选择 -> 层级摘要 -> LLM 推理视觉 token 预算要围绕问题分配,而不是围绕原始像素平均分配。很多失败不是模型不聪明,而是输入里 90% token 都和问题无关。
4. 如果你做 agent,视觉能力应该进入执行闭环
多模态 agent 的价值不是“描述截图”,而是把视觉状态转成可执行动作。例如:
观察 GUI 状态 -> 判断任务进度 -> 调用 CLI 或浏览器 -> 读取反馈 -> 修正计划这类场景里,视觉能力反而会反哺推理。因为屏幕、图表和运行结果提供了文本日志之外的状态证据。多模态不再是额外接口,而是 agent 判断世界状态的一部分。
结语
多模态诅咒的本质,是四重打击叠加:信息密度不对等引入噪声,参数容量竞争造成零和博弈,跨模态对齐污染文本权重,视觉 token 稀释关键注意力。
行业打破它经历了三次范式跳跃:第一阶段靠数据配比和冻结策略少交税;第二阶段靠原生联合预训练和 MoE 解耦避免互相伤害;第三阶段靠推理型多模态把视觉压缩成高密度逻辑表示,让不同模态开始互相增强。
对前沿模型来说,多模态正在从拖累变成增益。对中小模型和微调场景来说,诅咒还没有自动消失。真正有用的做法不是相信某个榜单结论,而是理解每一层机制,然后在数据、参数、token 和推理预算上做针对性防御。
参考资料
- LLaVA: Visual Instruction Tuning
- VILA: On Pre-training for Visual Language Models
- DeepSeek-VL: Towards Real-World Vision-Language Understanding
- DeepSeek-VL2: Mixture-of-Experts Vision-Language Models
- Training-Free Mitigation of Language Ability Forgetting in VLMs
- Qwen3-Omni Technical Report
- Qwen3.5-Omni Technical Report
- ERNIE 5.0 Technical Report
- Qwen3.7-Plus: Multimodal Agent Intelligence
- Qwen-VLA: From Understanding the World to Acting in It
- DeepSeek V4 Preview Release
- Gemini 3.1 Pro: Updates to Gemini 3
- Google I/O 2026 developer highlights
- OpenAI model release notes
- Claude Opus 4.8
