当前位置：首页 > news >正文

一文读懂Grounded SAM核心基础知识

news 2026/6/17 18:29:35

写在前面

欢迎大家关注Rocky的公众号：WeThinkIn
欢迎大家关注Rocky的知乎：Rocky Ding
AIGC算法工程师/开发工程师面试面经秘籍分享：WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star～

AIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源：【三年面试五年模拟】AI算法工程师面试秘籍

Rocky最新撰写AI Agent（AI智能体）的深入浅出全维度解析文章：深入浅出完整解析AI Agent（AI智能体）的核心基础知识

AIGC算法岗/开发岗面试面经交流社群（涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源）欢迎大家加入：https://t.zsxq.com/33pJ0

大家好，我是Rocky。

核心导读

如果上一篇 Grounding DINO 的核心是“让语言调度视觉检测器”，那么 Grounded SAM 这篇论文的核心就更进一步：把语言驱动的检测、可提示分割、图像标注、生成式编辑、人体三维分析等能力，装配成一套开放世界视觉工作流。

Rocky 认为，这篇工作真正值得读的地方，不是它提出了一个全新的神经网络结构，而是它提出了一种非常现实、也非常有产业意味的系统路线：当单一模型还无法优雅覆盖所有视觉任务时，不要执着于训练一个巨大的 unified model，而是把已经足够强的 expert model 接起来，让每个模型解决自己最擅长的子问题。

这背后有一个很关键的判断：视觉任务不像纯文本任务那样天然共享一种 token 表示。图像识别输出标签，检测输出 box，分割输出 mask，人体分析输出 mesh，视频跟踪输出轨迹，图像生成输出像素。强行统一当然是长期方向，但在工程落地上，装配式系统往往比单体大模型更早形成可用生产力。

Grounded SAM 的基础组合很简单：Grounding DINO 负责根据自然语言生成开放词表检测框，SAM 根据 box prompt 生成高质量 mask。这个组合把“文本到区域”的问题拆成两个子问题：先定位，再分割。随后，系统可以继续接 RAM / BLIP 做自动标注，接 Stable Diffusion 做可控图像编辑，接 OSX 做 promptable 3D human motion analysis。

论文给出的关键结果是：Grounded-SAM 在 Segmentation in the Wild（SGinW）zero-shot benchmark 上达到 48.7 mean AP；Grounded-HQ-SAM 进一步达到 49.6 mean AP，超过 UNINEXT-H 的 42.1、OpenSeeD-L 的 36.7、ODISE-L 的 38.7、SAN-CLIP-ViT-L 的 41.4。这个结果说明，装配式路线并不是“临时拼凑 demo”，在开放世界分割任务上可以形成强基线。

先看论文第一张图。它把 Grounded SAM 的定位讲得很直接：用户用任意文本输入指定目标，系统同时完成检测和分割，并且可以继续接入其他开放世界模型完成更复杂任务。

这张图是整篇论文的产品架构图。它真正表达的是：Grounded SAM 不是单个视觉模型，而是一条“语言 prompt -> box -> mask -> downstream model”的视觉流水线。AIGC 和 Agent 系统里最缺的常常不是单点模型，而是模型之间能稳定传递的中间表示。这里的 box 和 mask，就是视觉工作流里的 API。

问题背景：作者到底想解决什么

开放世界视觉任务的难点不只是类别开放，还在于任务形态开放。真实应用里，用户可能要做自动标注、目标擦除、对象替换、区域编辑、指定人物三维重建、文本提示跟踪、长尾物体分割。每个任务的输入输出都不同，训练数据也不同。

论文把当时开放世界视觉的路线分成三类。

第一类是 task-specific vision models。识别、检测、分割、跟踪、生成、人体理解等模型在各自任务上很强，但边界清楚，很难自然扩展到复杂组合任务。

第二类是 unified models。UNINEXT、OFA、LLaVA、InstructBLIP、Qwen-VL 等试图统一多任务或多模态能力。这条路线长期很重要，但它受制于数据覆盖、任务格式、训练成本和性能折中。尤其开放词表分割这种任务，既要知道文本指什么，又要给出像素级 mask，数据稀缺会成为瓶颈。

第三类是 LLM as controller。HuggingGPT、Visual ChatGPT、LLaVA-Plus 等让大语言模型调用不同视觉工具。这条路线灵活，但依赖 LLM 的规划能力、工具描述质量和调用可靠性。很多视觉子任务其实不需要先经过复杂语言推理，直接用视觉模型流水线组合会更高效。

Grounded SAM 选择的是第四种更工程化的表达：foundation model assembly。也就是不一定让 LLM 做控制器，也不强行训练一个全能模型，而是把几个强 expert model 用清晰中间表示连接起来。

路线	优点	短板	Grounded SAM 的选择
Task-specific model	单任务性能强	任务边界窄，难组合	复用专家模型能力
Unified model	长期愿景清晰	数据和训练成本高，性能易折中	不从零统一所有任务
LLM as controller	灵活、可规划	依赖 LLM 调度，成本和可靠性不稳定	不把 LLM 作为必要控制器
Model assembly	复用成熟能力，解释性强，工程快	pipeline 误差传递，接口设计重要	Grounded SAM 的主路线

Rocky 认为，这个选择非常符合 AI 应用的产业周期。模型红利还在快速演进时，硬训一个统一模型很容易被后来的基础模型吸收；但把多个强模型组织成稳定工作流、形成数据闭环和产品闭环，反而更容易产生阶段性价值。

核心思路：用一句主线串起来

Grounded SAM 的主线可以概括成一句话：用 Grounding DINO 把自然语言转成 box，用 SAM 把 box 转成 mask，再把 mask 作为视觉工作流的中间接口连接更多 expert model。

这个主线有三个层次。

第一层是 open-vocabulary detection and segmentation。SAM 会分割，但 SAM 自身通常需要点、框、mask 等 prompt；Grounding DINO 会根据文本找目标，但输出主要是 box。把两者接起来，就得到“文本输入 -> 目标定位 -> 像素级 mask”的能力。

第二层是 automatic dense image annotation。RAM 或 BLIP 可以从图像生成 tag / caption，但不能给出准确 box 和 mask。把它们输出的标签交给 Grounded SAM，就可以从“只有图像输入”走到“自动类别识别 + 实例 box + mask”。

第三层是 downstream task assembly。Stable Diffusion inpainting 需要 mask 做可控编辑，OSX 需要具体人物 box 做单人 mesh recovery。Grounded SAM 正好把语言意图转换成这些下游模型需要的空间条件。

从技术本质看，这篇论文其实在强调一个简单但强大的思想：开放世界视觉系统的关键不是把所有能力塞进一个模型，而是找到稳定的中间模态。在这里，中间模态就是 box 和 mask。

方法展开：沿着论文原始逻辑拆解

1. Preliminary：每个专家模型只解决自己最擅长的子问题

论文先列出 Grounded SAM 依赖的基础模型。SAM 负责分割，Grounding DINO 负责开放词表检测，OSX 负责 expressive whole-body mesh recovery，BLIP 负责图像描述，RAM 负责图像标签识别，Stable Diffusion 负责图像生成和 inpainting。

这些模型的能力边界非常互补。

模型	擅长	不擅长	在 Grounded SAM 中的位置
SAM	根据点/框等 prompt 生成高质量 mask	不知道文本指定哪个对象	被 box prompt 调用的分割器
Grounding DINO	根据任意文本做开放词表检测	输出 box，不输出精细 mask	文本到空间区域的定位器
RAM	识别图像中可能存在的通用类别标签	不输出 box / mask	自动标注 pipeline 的标签来源
BLIP	生成图像 caption	不做对象级定位	caption 到检测 prompt 的来源
Stable Diffusion Inpainting	根据 mask 和 prompt 做图像编辑	不负责理解目标位置	下游生成编辑器
OSX	单人全身 mesh recovery	需要先确定目标人物 box	下游人体分析器

这张表背后有一个工程判断：系统的能力不等于单个模型能力相加，而取决于模型之间的接口是否稳定。Grounding DINO 输出的 box 可以直接作为 SAM 的 box prompt；SAM 输出的 mask 可以直接作为 Stable Diffusion inpainting 的条件；Grounded SAM 输出的 human box 可以直接送给 OSX。这些接口越自然，系统越容易成立。

2. Grounded SAM：把开放词表检测和可提示分割拆成两步

开放词表分割最难的是同时解决两个问题：文本语义对齐和像素级边界。直接训练一个 text-to-mask 模型需要大量高质量开放词表分割数据，而这种数据成本非常高。Grounded SAM 的拆法是：先让 Grounding DINO 解决相对更成熟的 text-to-box，再让 SAM 解决 box-to-mask。

这其实是一个典型的“难问题分解”。

第一步，输入 image 和 text prompt，Grounding DINO 生成与文本匹配的 boxes。

第二步，把这些 boxes 作为 SAM 的 box prompt，生成对应对象或区域的 masks。

第三步，把 box、mask、phrase 作为后续任务的结构化输出。

图 2 展示了常见类别和长尾类别上的检测分割效果，包括类似 “Zale Horrida”“Gazania Linearis” 这样的长尾对象。这张图证明的是系统层能力：只要 Grounding DINO 能用文本定位到目标，SAM 就可以进一步把 box 转成高质量 mask。

Rocky 认为，这个方法的价值不是“SAM 加了文字能力”这么简单。更准确地说，是 Grounded SAM 给 SAM 提供了一个自动 prompt 生成器。过去 SAM 很强，但需要人类或别的系统告诉它分哪里；Grounded SAM 让自然语言变成 SAM 可以消费的空间 prompt。

3. RAM-Grounded-SAM：从“用户给 prompt”到“系统自动生成 prompt”

Grounded SAM 的基础形态仍然需要用户输入文本 prompt。RAM-Grounded-SAM 更进一步：如果用户连 prompt 都不给，系统能不能自己识别图像中有哪些类别，再自动标注整张图？

论文的做法是引入 RAM。RAM 根据图像生成 tags，例如 “airliner, plane, cargo ship, container”。这些 tags 再被送入 Grounded SAM，由 Grounding DINO 找到对应 boxes，再由 SAM 输出 masks。于是系统从“图像输入”自动得到“类别 + box + mask”的密集标注。

图 3 的意义很产业化。自动标注是视觉模型训练中最贵、最脏、也最容易形成数据飞轮的环节。RAM-Grounded-SAM 并不能完全取代人工标注，但它可以先生成候选类别、候选框和候选 mask，再让人类做筛选和修正。这种 human-in-the-loop 标注系统，往往比“全自动”更接近真实生产。

这也是论文结尾说的 prospect：通过 expert model assembly 降低标注成本，再让人类筛选或微调错误预测，最后把更高质量标注继续用于训练模型。换句话说，Grounded SAM 的长期价值不是一次推理，而是数据闭环。

4. Grounded-SAM-SD：让生成模型获得可控空间条件

Stable Diffusion 很强，但它本身不负责理解图像中哪个对象应该被编辑。图像编辑产品的关键矛盾常常是：用户想用语言表达操作，但模型需要 mask 才能精准 inpaint。

Grounded-SAM-SD 的组合路线是：用户输入文本或交互 prompt，Grounded SAM 定位并分割目标区域，Stable Diffusion inpainting 根据 mask 和生成 prompt 修改目标对象、替换区域或生成新数据。

图 4 说明了一个对 AIGC 产品非常关键的点：生成模型要从“玩具式生成”进入“工作流式编辑”，必须有可靠的控制层。mask 就是控制层。Grounded SAM 不是生成模型，但它让生成模型更可控、更可交互、更接近生产工具。

Rocky 认为，未来很多 AIGC 产品的护城河不会只在扩散模型本身，而在这些控制链路：对象定位、mask 质量、局部编辑一致性、多轮修正、素材数据闭环。Grounded SAM 正是这条链路中的关键一环。

5. Grounded-SAM-OSX：让人体分析从“检测所有人”变成“按语言指定人”

OSX 做 expressive whole-body mesh recovery，需要先得到人的检测框，再做单人 mesh recovery。传统流程通常检测所有人，然后逐个分析。但真实场景里，用户经常想指定某个特定人，例如“穿粉色衣服的人”“左边拿包的人”。

Grounded-SAM-OSX 用 Grounded SAM 先根据文本 prompt 找到特定人物 box，再把这个 box 交给 OSX 做对应人的 3D mesh recovery。

这张图其实把 Grounded SAM 的能力边界又扩了一层：它不仅能做对象分割，还能成为更复杂人体理解任务的入口。对于安防、运动分析、虚拟人、影视制作、具身智能等场景，“指定哪个人”往往比“图里有没有人”更重要。

实验与证据：结果能支撑到什么程度

论文用 SGinW（Segmentation in the Wild）zero-shot benchmark 验证 Grounded SAM。SGinW 包含 25 个 zero-shot in-the-wild 数据集，覆盖 Elephants、Hand-Metal、Watermelon、House-Parts、Brain-Tumor、Electric-Shaver、Phones、Ginger-Garlic 等多种长尾和真实场景分割任务。

Table 1 的核心结果如下。

方法	mean SGinW	Rocky 解读
X-Decoder-T	22.6	unified open-set segmentation 早期基线
X-Decoder-L-IN22K	26.6	更大数据带来提升，但仍有限
X-Decoder-B	27.7	中等规模基线
X-Decoder-L	32.2	相比小模型提升明显
OpenSeeD-L	36.7	open-set segmentation 强基线
ODISE-L	38.7	生成式/扩散相关语义能力带来提升
SAN-CLIP-ViT-L	41.4	CLIP 语义侧增强后更强
UNINEXT-H	42.1	unified model 代表性强基线
Grounded-SAM (L+H)	46.0	Grounding DINO-L + SAM-Huge
Grounded-SAM (B+H)	48.7	Grounding DINO-Base + SAM-Huge，论文摘要主结果
Grounded-HQ-SAM (B+H)	49.6	换用 HQ-SAM 后进一步提升

这个结果有两个值得注意的点。

第一，装配式系统超过了很多 unified segmentation 模型。这说明在开放世界分割任务上，“强检测器 + 强分割器”的组合可以很有效。它不一定更优雅，但很实用。

第二，Grounded-SAM (B+H) 反而高于 Grounded-SAM (L+H) 的 mean SGinW。论文没有在正文展开解释，但从结果看，模型规模更大不必然带来所有野外分割任务的平均提升。这再次提醒我们：开放世界 benchmark 的结果受检测器、分割器、类别 prompt、阈值、数据分布共同影响，不能简单把“更大模型”当作万能解。

从单项任务看，Grounded-SAM 也不是每一列都赢。例如 UNINEXT-H 在 Hand 上达到 93.7，SAN-CLIP-ViT-L 在 Garbage 上达到 46.5，OpenSeeD-L 在 Puppies 上达到 74.6。Grounded SAM 的强项是整体均值和大量任务的稳健性，而不是每个子任务都压倒性领先。

Rocky 认为，这个实验足以支撑论文的核心主张：model assembly 是开放世界视觉任务的强工程路线。但它不能证明 Grounded SAM 是所有分割任务的终局模型，也不能证明 pipeline 一定优于端到端统一模型。更准确的结论是：在当前数据和模型生态下，装配式路线可以用更低训练成本、更强解释性、更快组合速度，得到非常有竞争力的 zero-shot segmentation 能力。

这篇工作的边界与可复现性

第一，Grounded SAM 的能力上限受 Grounding DINO 和 SAM 两端共同限制。Grounding DINO 找不到目标，SAM 就没有正确 box；SAM 的 mask 对 box prompt 不稳，下游编辑和标注也会受影响。装配式系统的优点是可解释，缺点是误差会沿 pipeline 传递。

第二，开放词表分割不是完整语义理解。Grounded SAM 能根据 prompt 生成 mask，但它不等于理解复杂关系、动作、事件和因果。对于“正在把杯子递给孩子的人”“刚从车里出来的乘客”这类动态语义，单帧 box + mask pipeline 仍有明显边界。

第三，SGinW 是重要证据，但不是产品可靠性证明。25 个 zero-shot 数据集能反映开放世界泛化，但真实产品还要评估 prompt 稳定性、阈值敏感性、误检/漏检成本、延迟、批处理成本、人机协同标注效率。

第四，论文更像系统报告而不是完整算法论文。它的创新主要在 model assembly 和应用扩展，不是提出新的 loss、训练范式或统一架构。对研究者来说，它的“论文新颖性”可能不如 Grounding DINO；但对工程和产品来说，它的“系统价值”反而非常高。

第五，可复现性取决于多个外部模型版本。Grounding DINO、SAM、HQ-SAM、RAM、Stable Diffusion、OSX 等组件的 checkpoint、阈值、prompt 模板和预处理都会影响结果。复现 Grounded SAM，不只是跑一个模型，而是复现一条 pipeline。

如果继续研究/落地，应该关注什么

第一，接口标准化。Grounded SAM 的核心接口是 text、box、mask、tag、caption、image。未来如果视觉 Agent 要规模化，必须把这些中间表示标准化：坐标系、置信度、mask 格式、类别同义词、实例 ID、时间轨迹、可解释日志，都要成为稳定协议。

第二，数据闭环。自动标注不是为了炫技，而是为了更便宜地产生训练数据。最有价值的系统形态是：模型先自动生成候选标注，人类快速筛选修正，修正数据继续训练检测器、分割器或行业模型。这个闭环一旦跑通，才会形成真正的行业壁垒。

第三，LLM 控制层。论文没有把 LLM 作为必要控制器，但它也指出，装配式 CV API 很容易被 LLM 通过语言 prompt 调用。Rocky 认为，未来更自然的架构是：LLM 负责任务拆解和工具选择，Grounded SAM 负责视觉定位与 mask 生成，生成/跟踪/分析模型负责后续动作。

第四，行业长尾适配。Grounded SAM 对长尾对象有展示，但行业场景仍需要专门优化。例如工业缺陷、医疗影像、遥感目标、农业病虫害、仓储零件等任务中，类别语义、视觉形态和错误成本都更复杂。通用 Grounded SAM 适合作为冷启动，不能直接等同于行业可用系统。

第五，从静态图像走向视频和具身智能。论文提到可以接 tracking models，如 DEVA，做基于文本 prompt 的目标跟踪。这个方向非常关键。因为现实世界不是单张图，而是连续时间中的对象、状态和动作。Grounded SAM 如果能稳定产生跨帧 mask 和 object identity，就会更接近机器人和视频 Agent 的基础能力。

术语与概念速查

概念	简明解释	在本文中的作用
Grounded SAM	Grounding DINO + SAM 的开放词表分割流水线	本文主系统
Grounding DINO	根据任意文本做开放词表检测	text-to-box
SAM	根据 prompt 生成任意对象 mask	box-to-mask
RAM	Recognize Anything Model，图像标签识别模型	image-to-tags
BLIP	图像 caption / vision-language model	image-to-caption
Stable Diffusion Inpainting	根据 mask 和 prompt 做局部生成编辑	mask-to-edited-image
OSX	单图 expressive whole-body mesh recovery	human-box-to-3D-mesh
SGinW / SegInW	Segmentation in the Wild benchmark	zero-shot 分割评估
HQ-SAM	更高质量 mask 的 SAM 变体	提升 mask 质量
Model Assembly	把多个专家模型按接口组合	本文核心路线
LLM as Controller	让大语言模型调度工具	本文对照路线

拓展思考：值得继续扩展研究与思考的创新点

Grounded SAM 最重要的启发，是它把“模型能力”重新解释成“可组合能力”。过去我们习惯问：一个模型能做多少任务？Grounded SAM 问的是：如果每个专家模型都已经足够强，怎样用最少的训练、最清晰的接口，把它们装配成更多任务？

论文结尾提到一个公式：如果以前n nn个模型只能做n nn个任务，那么考虑所有模型组合，理论上可以做2 n − 1 2^n-12n−1个任务。这个说法当然带有理想化成分，因为不是任意模型组合都成立，接口、误差和任务定义都会限制组合空间。但它抓住了一个趋势：AI 系统的能力增长，不只来自单模型 scaling，也来自工具组合和工作流设计。

Rocky 认为，这篇论文放在 2024 年看，最像一个开放世界视觉 Agent 的早期雏形。它还没有完整的规划、记忆、多轮反馈和自动错误修正，但它已经把视觉任务拆成可调用模块：识别、定位、分割、编辑、人体分析、自动标注。这就是 Agent 化的前提。

对创业者和产品团队来说，Grounded SAM 的启发不是“照抄一个 demo”，而是建立自己的行业视觉工作流：你的用户输入是什么？中间表示是什么？哪个模型负责定位？哪个模型负责精修？哪个环节需要人类确认？哪些错误会回流成训练数据？这些问题比单纯换一个更大的模型更重要。

最后回到本文的核心判断：Grounded SAM 的本质不是 SAM 的一个插件，而是开放世界视觉系统的装配式路线。它告诉我们，在基础模型快速演进的阶段，真正有价值的工程能力，往往不是把所有东西揉成一个黑盒，而是把强模型变成可解释、可替换、可闭环的生产系统。

一文读懂Grounded SAM核心基础知识

写在前面

核心导读

问题背景：作者到底想解决什么

核心思路：用一句主线串起来

方法展开：沿着论文原始逻辑拆解

1. Preliminary：每个专家模型只解决自己最擅长的子问题

2. Grounded SAM：把开放词表检测和可提示分割拆成两步

3. RAM-Grounded-SAM：从“用户给 prompt”到“系统自动生成 prompt”

4. Grounded-SAM-SD：让生成模型获得可控空间条件

5. Grounded-SAM-OSX：让人体分析从“检测所有人”变成“按语言指定人”

实验与证据：结果能支撑到什么程度

这篇工作的边界与可复现性

如果继续研究/落地，应该关注什么

术语与概念速查

拓展思考：值得继续扩展研究与思考的创新点

推荐阅读

1. 深入浅出完整解析AI Agent（AI智能体）的核心基础知识

2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识

3. 深入浅出完整解析FLUX.2、Seedream（即梦）、Z-image、GLM-Image核心基础知识

4. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识

5. 深入浅出完整解析DeepSeek系列核心基础知识

6、Sora等AI视频大模型的核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用AI视频大模型，从0到1训练自己的AI视频大模型，AI视频大模型性能测评，AI视频领域未来发展等全维度解析文章正式发布！

8、Stable Diffusion XL核心基础知识，网络结构，从0到1搭建使用Stable Diffusion XL进行AI绘画，从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型，AI绘画领域的未来发展等全维度解析文章正式发布！

9、Stable Diffusion 1.x-2.x核心原理，核心基础知识，网络结构，经典应用场景，从0到1搭建使用Stable Diffusion进行AI绘画，从0到1上手使用Stable Diffusion训练自己的AI绘画模型，Stable Diffusion性能优化等全维度解析文章正式发布！

10、ControlNet核心基础知识，核心网络结构，从0到1使用ControlNet进行AI绘画，从0到1训练自己的ControlNet模型，从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布！

11、LoRA系列模型核心原理，核心基础知识，从0到1使用LoRA模型进行AI绘画，从0到1上手训练自己的LoRA模型，LoRA变体模型介绍，优质LoRA推荐等全维度解析文章正式发布！

12、深入浅出完整解析AIGC时代Transformer核心基础知识

13、最全面的AIGC面经《手把手教你成为AIGC算法工程师，斩获AIGC算法offer！（2024年版）》文章正式发布！

14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布！

16、GAN网络核心基础知识，网络架构，GAN经典变体模型，经典应用场景，GAN在AIGC时代的商业应用等全维度解析文章正式发布！

17. AI算法工程师的《三年面试五年模拟》求职秘籍

18. AIGC产业的深度思考与分析

相关文章：