当前位置: 首页 > news >正文

五一前夕DeepSeek发布多模态模型:解决指代鸿沟,拓扑推理大幅超越GPT-5.4等模型

虽迟但到,新技术公开

五一长假将至,DeepSeek公开新技术。昨天,DeepSeek陈小康一个X消息,引发大家对DeepSeek多模态的关注。之后,部分用户可在DeepSeek网页端和App上体验其多模态能力。刚刚,DeepSeek在Github上正式发布多模态模型,并公布背后的技术报告。

直击多模态大模型软肋

论文「Thinking with Visual Primitives(以视觉原语思考)」指出,当前多模态大模型存在「指代鸿沟」问题,即模型能「看见」,但不一定能「想清楚」。给GPT - 5.4一张密集人群照片问人数,或给Claude Sonnet 4.6一张复杂电路图问元件位置,它们的回答往往不准确。

背景:「看清」和「想清」是两码事

现有多模态大模型用自然语言构建「思维链」,但自然语言模糊,导致模型注意力在推理中「漂移」,得出错误结论。学术界此前主要解决「感知鸿沟」,而DeepSeek论文认为感知能力强也代替不了精确的「指代能力」。

架构:站在V4 - Flash肩膀上

这项工作以DeepSeek刚发布的V4 - Flash为语言主干,是一个284B总参数、推理时激活13B参数的混合专家模型(MoE)。视觉编码部分使用DeepSeek自研的ViT,支持任意分辨率输入。团队核心贡献是提出一套「训练哲学」,用极少视觉token让模型精确指代视觉对象。

核心创新

把坐标变成「思维单元」:将点坐标和边界框变成推理基本单位,穿插在思维链里。模型推理中提到视觉对象时同步输出坐标,像人类数东西用手指点,让逻辑链稳定。该机制有边界框和点坐标两种「原语」。

7056倍的视觉压缩:对于一张756×756的图片,传统方案需大量视觉token,DeepSeek经ViT处理、3×3空间压缩和「压缩稀疏注意力」机制,整体压缩比达7056倍。一张800×800的图片,该模型只需约90个KV缓存条目,而Claude Sonnet 4.6约需870个,Gemini - 3 - Flash约需1100个。

冷启动数据的精心设计:团队爬取近10万个目标检测数据集,经两轮筛选保留约3.17万个高质量数据源,生成超4000万条训练样本。设计了计数、空间推理和视觉问答、迷宫导航、路径追踪四类任务。

训练流程:「先分家,再合体」

第一步,用边界框数据和点坐标数据分别训练两个专家模型(FTwG和FTwP);第二步,对两个专家模型各自进行强化学习(RL),使用GRPO算法,奖励设计精细;第三步,用两个专家模型的rollout数据进行统一的强化微调(Unified RFT),再从预训练模型重新初始化开始训练,得到统一模型F;第四步,用On - Policy Distillation弥合统一模型与专家模型之间的性能差距。

实验结果:在「最难的那类题」上超越GPT - 5.4

论文在11个基准测试上评测,与Gemini - 3 - Flash、GPT - 5.4、Claude Sonnet 4.6、Gemma4 - 31B、Qwen3 - VL - 235B等主流模型对比。在计数任务、细粒度计数、空间推理多个基准上表现优秀,拓扑推理任务上领先明显,如迷宫导航和路径追踪任务中大幅超越GPT - 5.4等模型。

局限与未来

当前模型需明确「触发词」才启用视觉原语机制,受输入分辨率限制,视觉原语位置偶尔不够精准,用点坐标解决复杂拓扑推理问题的跨场景泛化能力有限。团队认为与现有高分辨率感知方案结合是下一步方向。

结语:一种新的「思考姿势」

这篇论文意义不仅在于榜单排名,它指出推理中语言指代歧义是多模态模型瓶颈,给出让模型「指更准」的新思路,像人类用手指点着想,为多模态推理增添新「思考姿势」。

http://www.jsqmd.com/news/739218/

相关文章:

  • FanControl终极指南:如何用这款免费软件完美控制你的电脑风扇
  • Claude Code 工具 详解
  • 别再为内存不够发愁了!手把手教你用STM32的FSMC外扩IS61WV102416BLL SRAM(附CubeMX配置)
  • 从PS5到Switch:游戏玩家专属电视选购指南(含索尼/三星/LG型号推荐及参数设置)
  • 终极热键侦探:3分钟快速定位Windows快捷键冲突的智能解决方案
  • 2026年西安GEO公司综合实力排行榜(TOP5) - GrowthUME
  • AI思维框架实战:用八大师模型提升深度分析与决策能力
  • 测试开发全日制学徒班7期第8天“-字典
  • STM32F103+SX1262 LoRa模块点对点通信实战:从硬件连接到代码调试(Keil MDK环境)
  • SLAM算法调参好帮手:用evo_config保存你的专属评估模板,告别重复命令
  • 为内部知识问答系统集成 Taotoken 的多模型聚合能力
  • 连接器
  • [具身智能-543]:终端卖硬件,连接“人”与物理世界;云端卖服务,淘金大市场无所不包。
  • 开发者如何打造高质量技术视频:从定位到运营的完整实战指南
  • 工业Python故障预测不讲原理只讲结果:12个已商用案例的特征工程清单(含振动+电流+温度多源融合技巧)
  • 避坑指南:Xilinx OSERDESE2仿真时序对不齐?可能是CLK/CLKDIV相位和复位没搞对
  • 从状态机到主函数:手把手拆解AutoSar COM模块的运行时行为与配置映射
  • 3个步骤掌握AKShare:Python量化投资数据获取终极指南
  • 别再只调IOU了!深入StrongSORT的BoT、EMA、NSA Kalman,揭秘多目标跟踪的六大核心trick
  • 使用 Taotoken 统一管理多个 AI 模型的 API 密钥与访问控制
  • 终极指南:3分钟掌握My-TODOs免费桌面待办工具,开启高效生活新篇章
  • 国产麒麟系统(arm64)离线部署Docker全家桶:从下载到启动的保姆级避坑记录
  • Python原生AI应用推理加速的“最后一公里”:细粒度算子级Fusion策略,实测降低H100显存占用37.6%
  • 跨平台音频下载工具终极指南:快速搭建个人音频资源库
  • 微信好友智能检测:高效发现单向好友关系的自动化解决方案
  • 告别理论!在Vivado里手把手搭建一个USB 2.0协议分析仪(基于FPGA+FT232)
  • 为Nodejs后端服务配置Taotoken作为大模型统一调用层
  • uni-app + ECharts 从踩坑到优雅集成:一个保险数据可视化页面的完整开发记录
  • 英雄联盟皮肤注入神器R3nzSkin:从零开始实现游戏换肤自由
  • 探索猫抓:让浏览器资源获取变得触手可及