当前位置：首页 > news >正文

多模态诅咒：为什么大模型会看图以后，文本推理反而变弱

news 2026/7/25 16:50:27

核心结论：所谓“多模态诅咒”不是玄学，而是文本大模型接入视觉后同时遇到的信息密度错位、参数容量竞争、跨模态对齐污染和视觉 token 稀释注意力。前沿模型正在通过原生多模态预训练、MoE 解耦和推理型视觉理解把它打破；但对中小模型和微调团队来说，它仍然是必须正面处理的工程问题。

第 0 层：30 秒理解

从 2023 年开始，很多团队都观察到一个反直觉现象：把纯文本 LLM 升级成 VLM 以后，模型会看图了，但在数学推理、代码生成、逻辑推理、纯文本问答上反而掉分。行业里常把它叫作“多模态诅咒”或“模态对齐税”。

这不是因为视觉能力天然伤害语言能力，而是因为早期做法经常是：

预训练好的视觉编码器 + 投影层 + 预训练好的文本 LLM + 少量多模态微调

这条路线成本低、见效快，但它默认了一个很强的假设：只要把视觉特征投影成类似 token 的东西，语言模型就能自然使用它。实际情况没那么简单。视觉信号和文本信号的统计结构完全不同，强行对齐会让原本训练好的语言表示发生偏移。

需要先把三个判断分开：

判断	更准确的说法
多模态一定让文本能力下降	不一定。前沿模型已经通过架构和训练方式大幅缓解，部分报告声称基本消除了相对单模态模型的退化
只要模型够大就能解决	规模有帮助，但不是全部。数据配比、路由、token 压缩和推理预算都很关键
这个问题已经过时	对万亿级原生多模态模型可能不再是主矛盾，但对 7B/13B 模型、LoRA 微调、行业私有 VLM 仍然很现实

理解这个问题的价值不在于复述一个旧结论，而在于解释：为什么 2025 年之后的解法有效，以及为什么资源有限的团队不能直接照抄前沿模型的乐观结论。

第 1 层：诅咒的本质是四重打击

1. 信息密度不对等：视觉进入文本空间时会带来噪声

文本是人类长期压缩出来的高密度符号系统。一句话可以同时携带时间、主体、动作、因果和抽象关系。例如“红队在第二轮反超”已经把场景、事件顺序和比较关系都压缩进了几个 token。

图像不是这样。一张图片有几百万像素，其中大量信息是光照、纹理、边缘、阴影、局部颜色和背景细节。它们对识别有用，但对数学、代码、符号推理未必有用。

问题不在于视觉信息低级，而在于早期 VLM 往往把大量低级视觉特征直接投影到语言模型的 token 空间里。对一个主要在文本分布上训练出来的解码器来说，这些 embedding 很容易落在语言流形之外。模型后续做推理时，相当于要在大量不相关视觉细节中提取少量高阶语义。

因此，多模态诅咒的第一层是信息论问题：视觉原始信号的体量很大，但能直接参与语言推理的有效语义密度不够高。

2. 参数容量零和博弈：固定容量里多了一个任务世界

一个 7B 纯文本模型，绝大部分参数都服务于语言建模、知识记忆、代码模式和推理格式。加上视觉能力以后，模型还要学习空间关系、物体边界、纹理、版面、图表、OCR 和多图关系。

如果总参数量不变，训练数据又不足，能力之间就会开始竞争。视觉能力不是免费长出来的，它会占用表示空间和优化预算。这个问题在中小模型上尤其明显：模型越小，参数越像一块有限的蛋糕；多一种模态，就多一组人来分。

这也是为什么很多强 VLM 在视觉问答榜单上看起来不错，但一放到纯文本数学或代码任务上会比同底座 LLM 弱一截。它不是“不会推理”，而是原本属于文本推理的容量和训练信号被分流了。

3. 跨模态对齐污染：微调会扭曲原来的文本权重

早期路线通常先拿一个视觉编码器，再用投影层把视觉 embedding 接到 LLM 上。第一阶段可以冻结 LLM，只训练投影层；但为了获得更强的多模态融合，第二阶段往往会打开更多 LLM 参数做指令微调。

这一步风险很大。视觉 embedding 空间和文本 token 空间是异构的，微调为了让二者能对齐，会把 LLM 的注意力、MLP 和表示边界往视觉任务上拉。如果图文数据比例过高、纯文本 replay 不够、学习率过大，原本精细训练出的文本能力就会被污染。

这个现象和持续学习里的灾难性遗忘很像：模型学会了新任务，却损伤了旧任务。区别是，多模态里遗忘的不是一个普通任务，而是整个语言模型的基本盘。

4. 视觉 token 稀释注意力：上下文窗口被大量冗余 token 挤占

图片进入 Transformer 后不是一张“图片”，而是一串视觉 token。一个中等分辨率图像可能带来几百个 token，多图输入、动态分辨率、长视频会把这个数量推到几千甚至更多。

自注意力里所有 token 都参与交互：

sequence = text_tokens + vision_tokens attention_scores: [sequence_length, sequence_length]

当大量视觉 token 涌入上下文，模型不仅计算更贵，关键文本指令也更容易被稀释。尤其是在长视频和多图推理里，很多视觉 token 只是重复背景、相似帧和局部纹理，却和用户真正关心的问题没有关系。

所以第四重打击不是单纯的“token 多”，而是“低价值 token 占据了高价值注意力位置”。

第 2 层：第一次范式跳跃，先学会少受伤

2023 到 2024 年，行业的第一反应不是彻底解决诅咒，而是承认它存在，然后用工程手段控制损失。最典型的做法有两类。

第一类是数据配比。多模态训练阶段不能只喂图文数据，还要持续混入足够多的纯文本、代码和数学数据，把语言能力拉住。DeepSeek-VL 一代报告里明确强调，预训练阶段至少保留 70% 语言数据；后续 DeepSeek-VL2 进入 MoE 路线后，配比变成约 70% VL 数据加 30% text-only 数据。这说明比例不是固定教条，而是服务于一个目标：防止文本基本盘被多模态训练冲垮。

第二类是冻结策略。LLaVA 这条路线的关键工程选择，是先冻结视觉编码器和语言模型，只训练一个视觉到语言的投影矩阵。这样做可以让视觉特征先适配语言空间，降低对 LLM 主体权重的扰动。

这阶段的核心思想可以概括为：

不要让视觉训练直接冲击语言模型的全部权重。

这种做法有效，但天花板也明显。冻结能减少污染，也限制了深度融合；文本 replay 能止血，但不能让视觉变成推理增益。模型会看图，但更多是在“语言模型旁边挂了一个视觉接口”，还不是从内部统一理解多模态世界。

第 3 层：第二次范式跳跃，从外挂视觉到原生多模态

2024 到 2025 年，路线开始变化：不要在一个已经训练完成的文本 LLM 上强行外挂视觉，而是从一开始就让模型原生容纳多模态。

关键做法有两个。

1. 联合预训练：让参数空间从一开始就容纳多模态

后融合路线的问题是，文本模型的参数空间已经被语言任务塑形完成，视觉后来进入时只能“挤进去”。联合预训练的思路则相反：在模型还没有完全被文本占满之前，就让文本、图像、视频、语音等信号一起参与训练。

ERNIE 5.0 报告把这类问题称为多模态能力跷跷板，并强调从零开始同步训练所有模态，以缓解后融合方法里的互相伤害。这里的关键不是某个具体模型名字，而是一条架构原则：如果你希望模型最终原生多模态，就不要把多模态当成后期补丁。

2. MoE 解耦：让不同模态不再争同一组参数

混合专家架构的价值，在多模态里不仅是省算力，更是解耦能力。文本 token 可以更多激活语言专家，视觉 token 可以更多激活视觉或跨模态专家。不同模态不必在每一步都争同一套稠密参数。

这样做直接回应了第二重打击：参数容量不再是完全零和。总参数量可以很大，但每个 token 只激活其中一部分；模型获得了更大的能力池，又不必让所有模态都共享同一条计算路径。

DeepSeek-VL2 这类 MoE VLM、ERNIE 5.0 这类统一多模态路线，都在回答同一个问题：不是把视觉塞进语言模型，而是重新设计一个能容纳多模态的模型。

不过，这一阶段仍然没有完全解决所有问题。信息密度错位依然存在，视觉 token 稀释注意力也依然存在。模型能更好地容纳视觉，但不一定已经学会把视觉压缩成高密度逻辑表示。

第 4 层：第三次范式跳跃，推理型多模态把视觉变成增益

2025 到 2026 年，更重要的变化发生在推理范式上：模型不再把视觉 token 浅层编码后直接扔进生成过程，而是在输出前投入更多计算，把视觉输入消化成结构化、高密度的语义表示。

这一步重新定义了视觉的价值。视觉信息密度低，不等于视觉没有推理价值。UI 截图、图表、架构图、流程图、数学草稿、代码运行界面，本身都含有丰富的结构关系。过去的问题是模型没有花足够计算量去提取这些高阶关系。

推理型多模态模型的做法更像这样：

视觉输入 -> 感知与定位 -> OCR / 版面 / 对象关系 / 图表结构 -> 高密度中间表示 -> 逻辑推理、工具调用、代码生成、任务执行

Qwen3-Omni 报告提出 Thinker-Talker 架构：Thinker 统一接收文本、图像、音频和视频输入并负责推理，Talker 负责流式语音输出。这条路线的重点是把多模态理解放进推理核心，而不是把视觉当成语言模型外部的附件。报告还声称，在相对于同系列单模态模型的文本和视觉能力上基本没有退化。

到 2026 年 4 月，Qwen3.5-Omni 又把这条线往前推了一步：报告强调 Hybrid Attention、Thinking-MoE 和超长多模态上下文，目标是在文本、视觉、音频、视频之间减少互相伤害。到 2026 年 6 月，Qwen3.7-Plus 的公开资料进一步把多模态能力和 agent 能力绑定在一起，强调从视觉感知走向深度逻辑推理，并把 GUI、CLI、代码和工作流自动化连成闭环。Qwen-VLA 则把问题从“理解多模态世界”推进到“在环境中行动”，说明视觉能力正在进入执行闭环。

Google 侧也已经不只停留在 Gemini 2.5 Pro。Gemini 3.1 Pro 和 I/O 2026 公开资料里的 Gemini 3.x 系列继续强调 advanced reasoning、native multimodality 和 agentic workflows。OpenAI 的 GPT-5.4/GPT-5-Codex、Anthropic 的 Claude Opus 4.8 也把视觉、代码、电脑使用和长任务 agent 连得更紧。它们不一定都提供“相对单模态无退化”的严格技术报告，但共同指向一个趋势：多模态能力正在成为 agent 编程和工作流自动化的核心输入，而不是聊天模型的附属功能。

这里还要单独说明 DeepSeek V4。DeepSeek 在 2026 年 4 月发布 V4 Preview，官方重点放在 1M 上下文、token-wise compression、agentic coding、structured data analysis 和前端能力上。它很重要，但不能直接作为“视觉多模态诅咒已被打破”的证据，因为官方资料没有把它定位成视觉多模态 VLM。它对本文的启发在另一层：长上下文压缩、稀疏注意力和 agentic 推理，同样是在解决“低价值 token 不要淹没高价值推理”的问题。

这说明多模态正在从负担变成飞轮。当模型能把视觉中的结构关系提炼出来，视觉就不只是干扰项，而是推理的信息源。一个 UI 截图可能比一段文字描述更准确；一张架构图可能比几百字需求更直接；一个报错页面可能把环境状态、输入输出和失败位置同时呈现出来。

关键转折点是：

浅层视觉编码：低密度 token 直接进入推理，容易稀释注意力 推理型视觉理解：先压缩成高密度语义，再参与逻辑推理

第 5 层：这对中小团队意味着什么

前沿模型正在打破多模态诅咒，但这不意味着每个团队都可以忽略它。现实情况是，大多数团队做的是 7B、13B、34B 级别模型微调，或者在开源 VLM 上做行业适配。这时，多模态诅咒仍然会以很具体的方式出现。

1. 如果你在微调开源 VLM，数据配比是第一道防线

不要只用图文问答、截图问答、OCR 数据去训。你需要持续混入纯文本指令、代码、数学和领域文本数据，并在训练过程中监控文本任务。

更实用的做法是：

风险	防御方式
文本能力下降	保留 text-only replay，训练前后跑同一组文本基准
LLM 权重被污染	先冻结 LLM，只训 projector/adapter；必要时再小学习率解冻
图文数据风格单一	混入不同分辨率、不同任务形态和负样本，避免模型只学会模板回答
只看多模态榜单	同时评估数学、代码、长文理解、领域问答和拒答能力

2. 如果你训练中小规模多模态模型，容量隔离不是可选项

小模型没有足够容量让所有能力共享同一套稠密参数。能做 MoE 就做 MoE；做不了完整 MoE，也要尽量用 adapter、LoRA 分组、模态专用 projector、分阶段解冻等方式减少互相污染。

核心原则是：不要让视觉任务用同样的学习率、同样的路径、同样的参数去冲击整个语言模型。

3. 如果你做长视频或多图推理，视觉 token 压缩决定上限

长视频不是把每一帧都塞进模型。多图也不是把所有 patch 原样展开。工程上必须先做压缩：

关键帧采样 -> 局部高分辨率裁剪 -> 查询相关 token 选择 -> 层级摘要 -> LLM 推理

视觉 token 预算要围绕问题分配，而不是围绕原始像素平均分配。很多失败不是模型不聪明，而是输入里 90% token 都和问题无关。

4. 如果你做 agent，视觉能力应该进入执行闭环

多模态 agent 的价值不是“描述截图”，而是把视觉状态转成可执行动作。例如：

观察 GUI 状态 -> 判断任务进度 -> 调用 CLI 或浏览器 -> 读取反馈 -> 修正计划

这类场景里，视觉能力反而会反哺推理。因为屏幕、图表和运行结果提供了文本日志之外的状态证据。多模态不再是额外接口，而是 agent 判断世界状态的一部分。

结语

多模态诅咒的本质，是四重打击叠加：信息密度不对等引入噪声，参数容量竞争造成零和博弈，跨模态对齐污染文本权重，视觉 token 稀释关键注意力。

行业打破它经历了三次范式跳跃：第一阶段靠数据配比和冻结策略少交税；第二阶段靠原生联合预训练和 MoE 解耦避免互相伤害；第三阶段靠推理型多模态把视觉压缩成高密度逻辑表示，让不同模态开始互相增强。

对前沿模型来说，多模态正在从拖累变成增益。对中小模型和微调场景来说，诅咒还没有自动消失。真正有用的做法不是相信某个榜单结论，而是理解每一层机制，然后在数据、参数、token 和推理预算上做针对性防御。

参考资料

LLaVA: Visual Instruction Tuning
VILA: On Pre-training for Visual Language Models
DeepSeek-VL: Towards Real-World Vision-Language Understanding
DeepSeek-VL2: Mixture-of-Experts Vision-Language Models
Training-Free Mitigation of Language Ability Forgetting in VLMs
Qwen3-Omni Technical Report
Qwen3.5-Omni Technical Report
ERNIE 5.0 Technical Report
Qwen3.7-Plus: Multimodal Agent Intelligence
Qwen-VLA: From Understanding the World to Acting in It
DeepSeek V4 Preview Release
Gemini 3.1 Pro: Updates to Gemini 3
Google I/O 2026 developer highlights
OpenAI model release notes
Claude Opus 4.8

查看全文

http://www.jsqmd.com/news/951181/

APP测试--adb使用介绍

2026苏州管道疏通别再花冤枉钱！全市半小时上门服务，5大场景一次说清！ - 资讯纵览

天津空调维修移机拆装哪家好？鑫诚制冷|嘉一制冷本地空调拆装｜2026最新空调维修移机拆装收费标准明细 - 卓一科技

QMCDecode终极指南：3步轻松解密QQ音乐加密文件，让音乐自由播放！

ZIP文件密码忘记？3步教你安全找回（附真实案例）

3分钟搞定在线学习：智慧职教自动刷课工具完整指南

Markdown要被HTML取代？Karpathy和Anthropic工程师都这么说

手写一个 CLAUDE.md——从空白到最佳实践

别再手动复制了！CentOS 7.9下VMware Tools一键式安装与共享文件夹配置全攻略

2026 北京卫生间漏水、外墙、楼顶、地下室、阳光房渗漏维修师傅推荐｜同城附近上门防水补漏公司测评 - 企业资讯

3分钟掌握：椰羊cocogoat工具箱实现原神圣遗物全自动管理终极指南

2026 绍兴卫生间漏水、外墙、楼顶、地下室、阳光房渗漏维修师傅推荐｜同城附近上门防水补漏公司测评 - 企业资讯

2026 镇江卫生间漏水、外墙、楼顶、地下室、阳光房渗漏维修师傅推荐｜同城附近上门防水补漏公司测评 - 企业资讯

2026 太原卫生间漏水、外墙、楼顶、地下室、阳光房渗漏维修师傅推荐｜同城附近上门防水补漏公司测评 - 企业资讯

【语音转文字技术全景】2026 年开源与闭源项目深度解析与选型指南

Win10资源管理器一联网就卡？可能是这个服务在搞鬼（附一键开关脚本）

3分钟上手easy-flow：快速构建可视化流程设计器的终极指南

2025年耐酸碱隔膜泵领域新动态，与行业巨头达成战略合作

2026 天津卫生间漏水、外墙、楼顶、地下室、阳光房渗漏维修师傅推荐｜同城附近上门防水补漏公司测评 - 企业资讯

旧 iPhone 数据迁移新 iPhone：4 种实用方法

Gemini Ultra技术报告深度解析：84页背后的工程诚实性与企业落地实践

2026 呼和浩特卫生间漏水、外墙、楼顶、地下室、阳光房渗漏维修师傅推荐｜同城附近上门防水补漏公司测评 - 企业资讯

上海软件定制开发实力厂商深度盘点：技术架构、落地能力与工程边界全解析 - 资讯纵览

3分钟极速汉化：FF14国际服中文补丁实战指南

MacBook用户必看：用Parallels Desktop 17.1.0在Big Sur上丝滑安装Windows 11专业版（附Intel芯片专属避坑项）

幻兽帕鲁终极存档修复指南：3种方法解决跨平台迁移的角色丢失问题

从Arduino到激光射击系统：嵌入式开发与交互设计的完整实践

6.4 构建之法阅读笔记08 - GENGAR

Qwen3.6 Plus百万上下文技术解析：长文本推理的架构级优化