当前位置: 首页 > news >正文

放假搞事,活捉删库的DeepSeek新论文,多模态RAG有搞头了,附原文

核心贡献:提出"视觉基元思维"框架,将边界框和点提升为"最小思维单元",让多模态大模型在推理时直接"指向"图像坐标,解决复杂空间推理中的"引用鸿沟"问题。是否能跟ds-ocr一样,炸响多模态领域?

一觉醒来,deepseek多模态仓库和论文被删了

现有方法的痛点

当前多模态大模型(MLLM)的视觉推理主要依赖语言链式思维(CoT)。虽然前沿模型通过高分辨率裁剪策略(如"Thinking with Images")不断弥补感知鸿沟(Perception Gap),让模型"看得更清",但它们忽略了一个更根本的瓶颈——引用鸿沟(Reference Gap)。

简单来说,自然语言本身存在固有的模糊性。当模型需要处理复杂空间布局(如密集计数、多步空间推演)时,纯语言的"想法"很容易丢失对视觉实体的精确指向,导致逻辑崩塌和幻觉级联。就像你让人数一堆散落的硬币,如果不用手指逐个确认,很容易数错或重复计数。

把指变成想的一部分

DS提出“Thinking with Visual Primitives”(视觉基元思维),核心思想是:将空间标记(边界框和点)提升为“最小思维单元”,直接交错嵌入模型的推理轨迹中。这样,模型就能实现**“边指边想”(point while it reasons)**,将抽象的语言概念精确锚定到图像的物理坐标上。

这一灵感来自人类认知:我们在走迷宫或数密集物体时,会自然用手指作为指示器来降低认知负荷、维持逻辑一致性。模型通过这种方式,让视觉标记不再是推理的"输出附件",而是推理过程的内在媒介

架构设计

模型基于DeepSeek-V4-Flash(284B总参数,13B激活参数的MoE架构)构建,采用标准LLaVA式架构:

  • 视觉编码:使用自研的 DeepSeek-ViT,支持任意分辨率输入,以14×14的patch尺寸处理图像。
  • 双重压缩策略
  1. 3×3空间Token压缩:将ViT输出的每9个相邻patch token在通道维度压缩为1个token。
  2. 压缩稀疏注意力(CSA):在LLM的KV Cache中进一步压缩视觉token。

以756×756分辨率的图像为例:

  • 原始像素:571,536个
  • Patch embedding后:2,916个token
  • 3×3压缩后:324个视觉token进入LLM预填充阶段
  • CSA压缩后:最终在KV Cache中仅保留81个视觉KV条目

整体压缩比高达7,056:1,实现了极高的推理效率。

训练流程

训练采用“先训练专家,再合并统一”的范式,分为五个阶段:

  1. 预训练:在海量多模态数据(数万亿token)上训练,让模型掌握输出视觉基元的基础能力。论文特别从网络上爬取了97,984个box grounding数据源,经过语义审查和几何质量审查两轮过滤,最终保留超过4000万高质量样本。
  2. 专门化SFT:分别针对"基于框的思维"和"基于点的思维"进行独立监督微调,避免模式冲突。
  3. 专门化RL:使用GRPO算法,配合精心设计的奖励模型(包括格式奖励、质量奖励和任务专属准确率奖励)进行强化学习。
  4. 统一RFT:用两个专家模型生成数据,重新训练一个统一的SFT模型。
  5. On-Policy Distillation:通过反向KL散度,将专家模型的能力蒸馏到统一模型中,弥合性能差距。

四大核心任务与冷启动数据

论文围绕视觉基元设计了四个关键任务的冷启动数据:

任务视觉基元数据规模核心难点
计数边界框~10,000粗粒度/细粒度计数,防止重复或遗漏
空间推理与VQA边界框9,000多跳关系推理,消除指代歧义
迷宫导航460,000拓扑连通性推理,DFS式探索与回溯
路径追踪125,000交叉点处的几何连续性判断

以计数任务为例,模型会执行三步协议:意图分析批量定位(用框标出所有候选对象)→统计汇总

在迷宫导航中,模型用点坐标记录DFS探索的每一步,遇到死胡同时会明确标注回溯点。

实验结果

在7个公开基准和3个内部基准上的评测显示:

  • Token效率:处理800×800图像时,模型在KV Cache中仅保留约90个条目,远低于GPT-5.4(740)、Claude-Sonnet-4.6(870)和Gemini-3-Flash(~1100)。
  • 性能表现:在选定基准上的平均得分达到**77.2%**,超越GPT-5.4(71.1%)、Claude-Sonnet-4.6(65.3%)和Qwen3-VL-235B-A22B(68.1%),与Gemini-3-Flash(76.5%)相当。

尤其在拓扑推理任务上优势显著:迷宫导航准确率66.9%(对比前沿模型约50%),路径追踪准确率56.7%(对比前沿模型24%-46%),证明了视觉基元在结构性推理中的不可替代性。

论文展示的例子

走迷宫

小巷识别

推理逃生

数人头

总结

这篇论文的核心启示在于:多模态智能的未来不在于"看更多像素",而在于建立语言与视觉世界之间精确、无歧义的引用桥梁。通过将空间标记提升为思维的最小单元,DeepSeek团队展示了一条通往高效、可扩展的System-2多模态推理的新路径——让AI不仅会"想",还会"指"。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/754162/

相关文章:

  • MCP协议与向量搜索:构建AI记忆系统的核心技术解析
  • 助睿实验作业1-订单利润分流数据加工
  • 【C语言逻辑题】谋杀案凶手是谁?——经典矛盾推理题详解
  • 神经网络在三轴燃气轮机建模仿真和故障诊断中的应用特性曲线预测【附代码】
  • 2025最权威的降AI率神器横评
  • 基于Whisper、Llama与Kokoro的本地实时语音对话机器人构建指南
  • AHK2_Lib:让AutoHotkey V2从脚本工具蜕变为专业开发平台
  • 用STM32CubeMX快速配置BH1750光照传感器,OLED实时显示并串口打印数据(附完整工程)
  • ESP32-C3硬件I2C不够用?手把手教你用SlowSoftWire库扩展软件I2C(以VL53L0X为例)
  • Scrcpy Mask实用指南:专业级安卓设备投屏与键盘映射解决方案
  • 如何免费解锁百度网盘SVIP高速下载:macOS用户终极指南
  • 分层奖励机制在空间智能模型中的应用与实践
  • 26ai OGG 微服务高可用部署及切换
  • 贵阳本地GEO首选贵阳伍子柒网络,懂贵阳市场,适配本地企业推广需求
  • Python 的 Pandas
  • 保姆级教程:在STM32G4上通过串口搞定FreeMASTER数据可视化(附源码)
  • 从GEE下载TFRecord分片文件到本地训练?这份TensorFlow数据管道构建指南请收好
  • Steam Deck控制器Windows适配终极指南:5分钟让游戏手柄完美兼容
  • Godot 4集成Lua:从脚本语言到嵌入式运行时的完整指南
  • 开发者技能树知识库:结构化学习路径与社区共建指南
  • 手把手教你玩转Codesys定时器:TON、TOF、TP、RTC功能块实战配置
  • Flutter for OpenHarmony 智能备忘录笔记APP 实战DAY3:新增笔记页面跳转+编辑表单布局+笔记本地持久化保存
  • 慧知开源虚拟电厂(VPP)核心平台PRD需求文档(大白话与专业结合版)- 慧知开源充电桩平台
  • 52.YOLOv8 口罩检测全流程:Labelme 标注 + 训练部署 + 源码可直接运行
  • 如何在 NestJS 中配置全局异常过滤器捕获异步拒绝错误
  • Merkle 树的认证路径
  • 2026年5月值得信赖的河北太行金景墙源头厂家有哪些厂家推荐榜,太行金景墙、柏坡黄景墙、中国黑景墙、干垒石墙、石皮地铺石厂家选择指南 - 海棠依旧大
  • 面试官最爱问的堆排序(Heap Sort)优化技巧与常见‘坑点’,我用Python和Go都实现了一遍
  • 计算 FORS 签名
  • C++ DoIP通信异常排查实战(车载以太网调试黑盒解密)