五一前夕DeepSeek发布多模态模型:解决指代鸿沟,拓扑推理大幅超越GPT-5.4等模型
虽迟但到,新技术公开
五一长假将至,DeepSeek公开新技术。昨天,DeepSeek陈小康一个X消息,引发大家对DeepSeek多模态的关注。之后,部分用户可在DeepSeek网页端和App上体验其多模态能力。刚刚,DeepSeek在Github上正式发布多模态模型,并公布背后的技术报告。
直击多模态大模型软肋
论文「Thinking with Visual Primitives(以视觉原语思考)」指出,当前多模态大模型存在「指代鸿沟」问题,即模型能「看见」,但不一定能「想清楚」。给GPT - 5.4一张密集人群照片问人数,或给Claude Sonnet 4.6一张复杂电路图问元件位置,它们的回答往往不准确。
背景:「看清」和「想清」是两码事
现有多模态大模型用自然语言构建「思维链」,但自然语言模糊,导致模型注意力在推理中「漂移」,得出错误结论。学术界此前主要解决「感知鸿沟」,而DeepSeek论文认为感知能力强也代替不了精确的「指代能力」。
架构:站在V4 - Flash肩膀上
这项工作以DeepSeek刚发布的V4 - Flash为语言主干,是一个284B总参数、推理时激活13B参数的混合专家模型(MoE)。视觉编码部分使用DeepSeek自研的ViT,支持任意分辨率输入。团队核心贡献是提出一套「训练哲学」,用极少视觉token让模型精确指代视觉对象。
核心创新
把坐标变成「思维单元」:将点坐标和边界框变成推理基本单位,穿插在思维链里。模型推理中提到视觉对象时同步输出坐标,像人类数东西用手指点,让逻辑链稳定。该机制有边界框和点坐标两种「原语」。
7056倍的视觉压缩:对于一张756×756的图片,传统方案需大量视觉token,DeepSeek经ViT处理、3×3空间压缩和「压缩稀疏注意力」机制,整体压缩比达7056倍。一张800×800的图片,该模型只需约90个KV缓存条目,而Claude Sonnet 4.6约需870个,Gemini - 3 - Flash约需1100个。
冷启动数据的精心设计:团队爬取近10万个目标检测数据集,经两轮筛选保留约3.17万个高质量数据源,生成超4000万条训练样本。设计了计数、空间推理和视觉问答、迷宫导航、路径追踪四类任务。
训练流程:「先分家,再合体」
第一步,用边界框数据和点坐标数据分别训练两个专家模型(FTwG和FTwP);第二步,对两个专家模型各自进行强化学习(RL),使用GRPO算法,奖励设计精细;第三步,用两个专家模型的rollout数据进行统一的强化微调(Unified RFT),再从预训练模型重新初始化开始训练,得到统一模型F;第四步,用On - Policy Distillation弥合统一模型与专家模型之间的性能差距。
实验结果:在「最难的那类题」上超越GPT - 5.4
论文在11个基准测试上评测,与Gemini - 3 - Flash、GPT - 5.4、Claude Sonnet 4.6、Gemma4 - 31B、Qwen3 - VL - 235B等主流模型对比。在计数任务、细粒度计数、空间推理多个基准上表现优秀,拓扑推理任务上领先明显,如迷宫导航和路径追踪任务中大幅超越GPT - 5.4等模型。
局限与未来
当前模型需明确「触发词」才启用视觉原语机制,受输入分辨率限制,视觉原语位置偶尔不够精准,用点坐标解决复杂拓扑推理问题的跨场景泛化能力有限。团队认为与现有高分辨率感知方案结合是下一步方向。
结语:一种新的「思考姿势」
这篇论文意义不仅在于榜单排名,它指出推理中语言指代歧义是多模态模型瓶颈,给出让模型「指更准」的新思路,像人类用手指点着想,为多模态推理增添新「思考姿势」。
