当前位置：首页 > news >正文

放假搞事，活捉删库的DeepSeek新论文，多模态RAG有搞头了，附原文

news 2026/6/21 21:44:52

核心贡献：提出"视觉基元思维"框架，将边界框和点提升为"最小思维单元"，让多模态大模型在推理时直接"指向"图像坐标，解决复杂空间推理中的"引用鸿沟"问题。是否能跟ds-ocr一样，炸响多模态领域？

一觉醒来，deepseek多模态仓库和论文被删了

现有方法的痛点

当前多模态大模型（MLLM）的视觉推理主要依赖语言链式思维（CoT）。虽然前沿模型通过高分辨率裁剪策略（如"Thinking with Images"）不断弥补感知鸿沟（Perception Gap），让模型"看得更清"，但它们忽略了一个更根本的瓶颈——引用鸿沟（Reference Gap）。

简单来说，自然语言本身存在固有的模糊性。当模型需要处理复杂空间布局（如密集计数、多步空间推演）时，纯语言的"想法"很容易丢失对视觉实体的精确指向，导致逻辑崩塌和幻觉级联。就像你让人数一堆散落的硬币，如果不用手指逐个确认，很容易数错或重复计数。

把指变成想的一部分

DS提出“Thinking with Visual Primitives”（视觉基元思维），核心思想是：将空间标记（边界框和点）提升为“最小思维单元”，直接交错嵌入模型的推理轨迹中。这样，模型就能实现**“边指边想”（point while it reasons）**，将抽象的语言概念精确锚定到图像的物理坐标上。

这一灵感来自人类认知：我们在走迷宫或数密集物体时，会自然用手指作为指示器来降低认知负荷、维持逻辑一致性。模型通过这种方式，让视觉标记不再是推理的"输出附件"，而是推理过程的内在媒介。

架构设计

模型基于DeepSeek-V4-Flash（284B总参数，13B激活参数的MoE架构）构建，采用标准LLaVA式架构：

视觉编码：使用自研的 DeepSeek-ViT，支持任意分辨率输入，以14×14的patch尺寸处理图像。
双重压缩策略：

3×3空间Token压缩：将ViT输出的每9个相邻patch token在通道维度压缩为1个token。
压缩稀疏注意力（CSA）：在LLM的KV Cache中进一步压缩视觉token。

以756×756分辨率的图像为例：

原始像素：571,536个
Patch embedding后：2,916个token
3×3压缩后：324个视觉token进入LLM预填充阶段
CSA压缩后：最终在KV Cache中仅保留81个视觉KV条目

整体压缩比高达7,056:1，实现了极高的推理效率。

训练流程

训练采用“先训练专家，再合并统一”的范式，分为五个阶段：

预训练：在海量多模态数据（数万亿token）上训练，让模型掌握输出视觉基元的基础能力。论文特别从网络上爬取了97,984个box grounding数据源，经过语义审查和几何质量审查两轮过滤，最终保留超过4000万高质量样本。
专门化SFT：分别针对"基于框的思维"和"基于点的思维"进行独立监督微调，避免模式冲突。
专门化RL：使用GRPO算法，配合精心设计的奖励模型（包括格式奖励、质量奖励和任务专属准确率奖励）进行强化学习。
统一RFT：用两个专家模型生成数据，重新训练一个统一的SFT模型。
On-Policy Distillation：通过反向KL散度，将专家模型的能力蒸馏到统一模型中，弥合性能差距。

四大核心任务与冷启动数据

论文围绕视觉基元设计了四个关键任务的冷启动数据：

任务	视觉基元	数据规模	核心难点
计数	边界框	~10,000	粗粒度/细粒度计数，防止重复或遗漏
空间推理与VQA	边界框	9,000	多跳关系推理，消除指代歧义
迷宫导航	点	460,000	拓扑连通性推理，DFS式探索与回溯
路径追踪	点	125,000	交叉点处的几何连续性判断

以计数任务为例，模型会执行三步协议：意图分析→批量定位（用框标出所有候选对象）→统计汇总。

在迷宫导航中，模型用点坐标记录DFS探索的每一步，遇到死胡同时会明确标注回溯点。

实验结果

在7个公开基准和3个内部基准上的评测显示：

Token效率：处理800×800图像时，模型在KV Cache中仅保留约90个条目，远低于GPT-5.4（_{740）、Claude-Sonnet-4.6（}870）和Gemini-3-Flash（~1100）。
性能表现：在选定基准上的平均得分达到**77.2%**，超越GPT-5.4（71.1%）、Claude-Sonnet-4.6（65.3%）和Qwen3-VL-235B-A22B（68.1%），与Gemini-3-Flash（76.5%）相当。

尤其在拓扑推理任务上优势显著：迷宫导航准确率66.9%（对比前沿模型约50%），路径追踪准确率56.7%（对比前沿模型24%-46%），证明了视觉基元在结构性推理中的不可替代性。

论文展示的例子

走迷宫

小巷识别

推理逃生

数人头

总结

这篇论文的核心启示在于：多模态智能的未来不在于"看更多像素"，而在于建立语言与视觉世界之间精确、无歧义的引用桥梁。通过将空间标记提升为思维的最小单元，DeepSeek团队展示了一条通往高效、可扩展的System-2多模态推理的新路径——让AI不仅会"想"，还会"指"。

学AI大模型的正确顺序，千万不要搞错了

🤔2026年AI风口已来！各行各业的AI渗透肉眼可见，超多公司要么转型做AI相关产品，要么高薪挖AI技术人才，机遇直接摆在眼前！

有往AI方向发展，或者本身有后端编程基础的朋友，直接冲AI大模型应用开发转岗超合适！

就算暂时不打算转岗，了解大模型、RAG、Prompt、Agent这些热门概念，能上手做简单项目，也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料，手把手帮你快速入门！👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型（GPT、文心一言等）特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架（LangChain等）实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块，看似清晰好上手，实则每个部分都有扎实的核心内容需要吃透！

我把大模型的学习全流程已经整理📚好了！抓住AI时代风口，轻松解锁职业新可能，希望大家都能把握机遇，实现薪资/职业跃迁～