一文读懂Grounded SAM核心基础知识
写在前面
欢迎大家关注Rocky的公众号:WeThinkIn
欢迎大家关注Rocky的知乎:Rocky Ding
AIGC算法工程师/开发工程师面试面经秘籍分享:WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家Star~
AIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源:【三年面试五年模拟】AI算法工程师面试秘籍
Rocky最新撰写AI Agent(AI智能体)的深入浅出全维度解析文章:深入浅出完整解析AI Agent(AI智能体)的核心基础知识
AIGC算法岗/开发岗面试面经交流社群(涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源)欢迎大家加入:https://t.zsxq.com/33pJ0
大家好,我是Rocky。
核心导读
如果上一篇 Grounding DINO 的核心是“让语言调度视觉检测器”,那么 Grounded SAM 这篇论文的核心就更进一步:把语言驱动的检测、可提示分割、图像标注、生成式编辑、人体三维分析等能力,装配成一套开放世界视觉工作流。
Rocky 认为,这篇工作真正值得读的地方,不是它提出了一个全新的神经网络结构,而是它提出了一种非常现实、也非常有产业意味的系统路线:当单一模型还无法优雅覆盖所有视觉任务时,不要执着于训练一个巨大的 unified model,而是把已经足够强的 expert model 接起来,让每个模型解决自己最擅长的子问题。
这背后有一个很关键的判断:视觉任务不像纯文本任务那样天然共享一种 token 表示。图像识别输出标签,检测输出 box,分割输出 mask,人体分析输出 mesh,视频跟踪输出轨迹,图像生成输出像素。强行统一当然是长期方向,但在工程落地上,装配式系统往往比单体大模型更早形成可用生产力。
Grounded SAM 的基础组合很简单:Grounding DINO 负责根据自然语言生成开放词表检测框,SAM 根据 box prompt 生成高质量 mask。这个组合把“文本到区域”的问题拆成两个子问题:先定位,再分割。随后,系统可以继续接 RAM / BLIP 做自动标注,接 Stable Diffusion 做可控图像编辑,接 OSX 做 promptable 3D human motion analysis。
论文给出的关键结果是:Grounded-SAM 在 Segmentation in the Wild(SGinW)zero-shot benchmark 上达到 48.7 mean AP;Grounded-HQ-SAM 进一步达到 49.6 mean AP,超过 UNINEXT-H 的 42.1、OpenSeeD-L 的 36.7、ODISE-L 的 38.7、SAN-CLIP-ViT-L 的 41.4。这个结果说明,装配式路线并不是“临时拼凑 demo”,在开放世界分割任务上可以形成强基线。
先看论文第一张图。它把 Grounded SAM 的定位讲得很直接:用户用任意文本输入指定目标,系统同时完成检测和分割,并且可以继续接入其他开放世界模型完成更复杂任务。
这张图是整篇论文的产品架构图。它真正表达的是:Grounded SAM 不是单个视觉模型,而是一条“语言 prompt -> box -> mask -> downstream model”的视觉流水线。AIGC 和 Agent 系统里最缺的常常不是单点模型,而是模型之间能稳定传递的中间表示。这里的 box 和 mask,就是视觉工作流里的 API。
问题背景:作者到底想解决什么
开放世界视觉任务的难点不只是类别开放,还在于任务形态开放。真实应用里,用户可能要做自动标注、目标擦除、对象替换、区域编辑、指定人物三维重建、文本提示跟踪、长尾物体分割。每个任务的输入输出都不同,训练数据也不同。
论文把当时开放世界视觉的路线分成三类。
第一类是 task-specific vision models。识别、检测、分割、跟踪、生成、人体理解等模型在各自任务上很强,但边界清楚,很难自然扩展到复杂组合任务。
第二类是 unified models。UNINEXT、OFA、LLaVA、InstructBLIP、Qwen-VL 等试图统一多任务或多模态能力。这条路线长期很重要,但它受制于数据覆盖、任务格式、训练成本和性能折中。尤其开放词表分割这种任务,既要知道文本指什么,又要给出像素级 mask,数据稀缺会成为瓶颈。
第三类是 LLM as controller。HuggingGPT、Visual ChatGPT、LLaVA-Plus 等让大语言模型调用不同视觉工具。这条路线灵活,但依赖 LLM 的规划能力、工具描述质量和调用可靠性。很多视觉子任务其实不需要先经过复杂语言推理,直接用视觉模型流水线组合会更高效。
Grounded SAM 选择的是第四种更工程化的表达:foundation model assembly。也就是不一定让 LLM 做控制器,也不强行训练一个全能模型,而是把几个强 expert model 用清晰中间表示连接起来。
| 路线 | 优点 | 短板 | Grounded SAM 的选择 |
|---|---|---|---|
| Task-specific model | 单任务性能强 | 任务边界窄,难组合 | 复用专家模型能力 |
| Unified model | 长期愿景清晰 | 数据和训练成本高,性能易折中 | 不从零统一所有任务 |
| LLM as controller | 灵活、可规划 | 依赖 LLM 调度,成本和可靠性不稳定 | 不把 LLM 作为必要控制器 |
| Model assembly | 复用成熟能力,解释性强,工程快 | pipeline 误差传递,接口设计重要 | Grounded SAM 的主路线 |
Rocky 认为,这个选择非常符合 AI 应用的产业周期。模型红利还在快速演进时,硬训一个统一模型很容易被后来的基础模型吸收;但把多个强模型组织成稳定工作流、形成数据闭环和产品闭环,反而更容易产生阶段性价值。
核心思路:用一句主线串起来
Grounded SAM 的主线可以概括成一句话:用 Grounding DINO 把自然语言转成 box,用 SAM 把 box 转成 mask,再把 mask 作为视觉工作流的中间接口连接更多 expert model。
这个主线有三个层次。
第一层是 open-vocabulary detection and segmentation。SAM 会分割,但 SAM 自身通常需要点、框、mask 等 prompt;Grounding DINO 会根据文本找目标,但输出主要是 box。把两者接起来,就得到“文本输入 -> 目标定位 -> 像素级 mask”的能力。
第二层是 automatic dense image annotation。RAM 或 BLIP 可以从图像生成 tag / caption,但不能给出准确 box 和 mask。把它们输出的标签交给 Grounded SAM,就可以从“只有图像输入”走到“自动类别识别 + 实例 box + mask”。
第三层是 downstream task assembly。Stable Diffusion inpainting 需要 mask 做可控编辑,OSX 需要具体人物 box 做单人 mesh recovery。Grounded SAM 正好把语言意图转换成这些下游模型需要的空间条件。
从技术本质看,这篇论文其实在强调一个简单但强大的思想:开放世界视觉系统的关键不是把所有能力塞进一个模型,而是找到稳定的中间模态。在这里,中间模态就是 box 和 mask。
方法展开:沿着论文原始逻辑拆解
1. Preliminary:每个专家模型只解决自己最擅长的子问题
论文先列出 Grounded SAM 依赖的基础模型。SAM 负责分割,Grounding DINO 负责开放词表检测,OSX 负责 expressive whole-body mesh recovery,BLIP 负责图像描述,RAM 负责图像标签识别,Stable Diffusion 负责图像生成和 inpainting。
这些模型的能力边界非常互补。
| 模型 | 擅长 | 不擅长 | 在 Grounded SAM 中的位置 |
|---|---|---|---|
| SAM | 根据点/框等 prompt 生成高质量 mask | 不知道文本指定哪个对象 | 被 box prompt 调用的分割器 |
| Grounding DINO | 根据任意文本做开放词表检测 | 输出 box,不输出精细 mask | 文本到空间区域的定位器 |
| RAM | 识别图像中可能存在的通用类别标签 | 不输出 box / mask | 自动标注 pipeline 的标签来源 |
| BLIP | 生成图像 caption | 不做对象级定位 | caption 到检测 prompt 的来源 |
| Stable Diffusion Inpainting | 根据 mask 和 prompt 做图像编辑 | 不负责理解目标位置 | 下游生成编辑器 |
| OSX | 单人全身 mesh recovery | 需要先确定目标人物 box | 下游人体分析器 |
这张表背后有一个工程判断:系统的能力不等于单个模型能力相加,而取决于模型之间的接口是否稳定。Grounding DINO 输出的 box 可以直接作为 SAM 的 box prompt;SAM 输出的 mask 可以直接作为 Stable Diffusion inpainting 的条件;Grounded SAM 输出的 human box 可以直接送给 OSX。这些接口越自然,系统越容易成立。
2. Grounded SAM:把开放词表检测和可提示分割拆成两步
开放词表分割最难的是同时解决两个问题:文本语义对齐和像素级边界。直接训练一个 text-to-mask 模型需要大量高质量开放词表分割数据,而这种数据成本非常高。Grounded SAM 的拆法是:先让 Grounding DINO 解决相对更成熟的 text-to-box,再让 SAM 解决 box-to-mask。
这其实是一个典型的“难问题分解”。
第一步,输入 image 和 text prompt,Grounding DINO 生成与文本匹配的 boxes。
第二步,把这些 boxes 作为 SAM 的 box prompt,生成对应对象或区域的 masks。
第三步,把 box、mask、phrase 作为后续任务的结构化输出。
图 2 展示了常见类别和长尾类别上的检测分割效果,包括类似 “Zale Horrida”“Gazania Linearis” 这样的长尾对象。这张图证明的是系统层能力:只要 Grounding DINO 能用文本定位到目标,SAM 就可以进一步把 box 转成高质量 mask。
Rocky 认为,这个方法的价值不是“SAM 加了文字能力”这么简单。更准确地说,是 Grounded SAM 给 SAM 提供了一个自动 prompt 生成器。过去 SAM 很强,但需要人类或别的系统告诉它分哪里;Grounded SAM 让自然语言变成 SAM 可以消费的空间 prompt。
3. RAM-Grounded-SAM:从“用户给 prompt”到“系统自动生成 prompt”
Grounded SAM 的基础形态仍然需要用户输入文本 prompt。RAM-Grounded-SAM 更进一步:如果用户连 prompt 都不给,系统能不能自己识别图像中有哪些类别,再自动标注整张图?
论文的做法是引入 RAM。RAM 根据图像生成 tags,例如 “airliner, plane, cargo ship, container”。这些 tags 再被送入 Grounded SAM,由 Grounding DINO 找到对应 boxes,再由 SAM 输出 masks。于是系统从“图像输入”自动得到“类别 + box + mask”的密集标注。
图 3 的意义很产业化。自动标注是视觉模型训练中最贵、最脏、也最容易形成数据飞轮的环节。RAM-Grounded-SAM 并不能完全取代人工标注,但它可以先生成候选类别、候选框和候选 mask,再让人类做筛选和修正。这种 human-in-the-loop 标注系统,往往比“全自动”更接近真实生产。
这也是论文结尾说的 prospect:通过 expert model assembly 降低标注成本,再让人类筛选或微调错误预测,最后把更高质量标注继续用于训练模型。换句话说,Grounded SAM 的长期价值不是一次推理,而是数据闭环。
4. Grounded-SAM-SD:让生成模型获得可控空间条件
Stable Diffusion 很强,但它本身不负责理解图像中哪个对象应该被编辑。图像编辑产品的关键矛盾常常是:用户想用语言表达操作,但模型需要 mask 才能精准 inpaint。
Grounded-SAM-SD 的组合路线是:用户输入文本或交互 prompt,Grounded SAM 定位并分割目标区域,Stable Diffusion inpainting 根据 mask 和生成 prompt 修改目标对象、替换区域或生成新数据。
图 4 说明了一个对 AIGC 产品非常关键的点:生成模型要从“玩具式生成”进入“工作流式编辑”,必须有可靠的控制层。mask 就是控制层。Grounded SAM 不是生成模型,但它让生成模型更可控、更可交互、更接近生产工具。
Rocky 认为,未来很多 AIGC 产品的护城河不会只在扩散模型本身,而在这些控制链路:对象定位、mask 质量、局部编辑一致性、多轮修正、素材数据闭环。Grounded SAM 正是这条链路中的关键一环。
5. Grounded-SAM-OSX:让人体分析从“检测所有人”变成“按语言指定人”
OSX 做 expressive whole-body mesh recovery,需要先得到人的检测框,再做单人 mesh recovery。传统流程通常检测所有人,然后逐个分析。但真实场景里,用户经常想指定某个特定人,例如“穿粉色衣服的人”“左边拿包的人”。
Grounded-SAM-OSX 用 Grounded SAM 先根据文本 prompt 找到特定人物 box,再把这个 box 交给 OSX 做对应人的 3D mesh recovery。
这张图其实把 Grounded SAM 的能力边界又扩了一层:它不仅能做对象分割,还能成为更复杂人体理解任务的入口。对于安防、运动分析、虚拟人、影视制作、具身智能等场景,“指定哪个人”往往比“图里有没有人”更重要。
实验与证据:结果能支撑到什么程度
论文用 SGinW(Segmentation in the Wild)zero-shot benchmark 验证 Grounded SAM。SGinW 包含 25 个 zero-shot in-the-wild 数据集,覆盖 Elephants、Hand-Metal、Watermelon、House-Parts、Brain-Tumor、Electric-Shaver、Phones、Ginger-Garlic 等多种长尾和真实场景分割任务。
Table 1 的核心结果如下。
| 方法 | mean SGinW | Rocky 解读 |
|---|---|---|
| X-Decoder-T | 22.6 | unified open-set segmentation 早期基线 |
| X-Decoder-L-IN22K | 26.6 | 更大数据带来提升,但仍有限 |
| X-Decoder-B | 27.7 | 中等规模基线 |
| X-Decoder-L | 32.2 | 相比小模型提升明显 |
| OpenSeeD-L | 36.7 | open-set segmentation 强基线 |
| ODISE-L | 38.7 | 生成式/扩散相关语义能力带来提升 |
| SAN-CLIP-ViT-L | 41.4 | CLIP 语义侧增强后更强 |
| UNINEXT-H | 42.1 | unified model 代表性强基线 |
| Grounded-SAM (L+H) | 46.0 | Grounding DINO-L + SAM-Huge |
| Grounded-SAM (B+H) | 48.7 | Grounding DINO-Base + SAM-Huge,论文摘要主结果 |
| Grounded-HQ-SAM (B+H) | 49.6 | 换用 HQ-SAM 后进一步提升 |
这个结果有两个值得注意的点。
第一,装配式系统超过了很多 unified segmentation 模型。这说明在开放世界分割任务上,“强检测器 + 强分割器”的组合可以很有效。它不一定更优雅,但很实用。
第二,Grounded-SAM (B+H) 反而高于 Grounded-SAM (L+H) 的 mean SGinW。论文没有在正文展开解释,但从结果看,模型规模更大不必然带来所有野外分割任务的平均提升。这再次提醒我们:开放世界 benchmark 的结果受检测器、分割器、类别 prompt、阈值、数据分布共同影响,不能简单把“更大模型”当作万能解。
从单项任务看,Grounded-SAM 也不是每一列都赢。例如 UNINEXT-H 在 Hand 上达到 93.7,SAN-CLIP-ViT-L 在 Garbage 上达到 46.5,OpenSeeD-L 在 Puppies 上达到 74.6。Grounded SAM 的强项是整体均值和大量任务的稳健性,而不是每个子任务都压倒性领先。
Rocky 认为,这个实验足以支撑论文的核心主张:model assembly 是开放世界视觉任务的强工程路线。但它不能证明 Grounded SAM 是所有分割任务的终局模型,也不能证明 pipeline 一定优于端到端统一模型。更准确的结论是:在当前数据和模型生态下,装配式路线可以用更低训练成本、更强解释性、更快组合速度,得到非常有竞争力的 zero-shot segmentation 能力。
这篇工作的边界与可复现性
第一,Grounded SAM 的能力上限受 Grounding DINO 和 SAM 两端共同限制。Grounding DINO 找不到目标,SAM 就没有正确 box;SAM 的 mask 对 box prompt 不稳,下游编辑和标注也会受影响。装配式系统的优点是可解释,缺点是误差会沿 pipeline 传递。
第二,开放词表分割不是完整语义理解。Grounded SAM 能根据 prompt 生成 mask,但它不等于理解复杂关系、动作、事件和因果。对于“正在把杯子递给孩子的人”“刚从车里出来的乘客”这类动态语义,单帧 box + mask pipeline 仍有明显边界。
第三,SGinW 是重要证据,但不是产品可靠性证明。25 个 zero-shot 数据集能反映开放世界泛化,但真实产品还要评估 prompt 稳定性、阈值敏感性、误检/漏检成本、延迟、批处理成本、人机协同标注效率。
第四,论文更像系统报告而不是完整算法论文。它的创新主要在 model assembly 和应用扩展,不是提出新的 loss、训练范式或统一架构。对研究者来说,它的“论文新颖性”可能不如 Grounding DINO;但对工程和产品来说,它的“系统价值”反而非常高。
第五,可复现性取决于多个外部模型版本。Grounding DINO、SAM、HQ-SAM、RAM、Stable Diffusion、OSX 等组件的 checkpoint、阈值、prompt 模板和预处理都会影响结果。复现 Grounded SAM,不只是跑一个模型,而是复现一条 pipeline。
如果继续研究/落地,应该关注什么
第一,接口标准化。Grounded SAM 的核心接口是 text、box、mask、tag、caption、image。未来如果视觉 Agent 要规模化,必须把这些中间表示标准化:坐标系、置信度、mask 格式、类别同义词、实例 ID、时间轨迹、可解释日志,都要成为稳定协议。
第二,数据闭环。自动标注不是为了炫技,而是为了更便宜地产生训练数据。最有价值的系统形态是:模型先自动生成候选标注,人类快速筛选修正,修正数据继续训练检测器、分割器或行业模型。这个闭环一旦跑通,才会形成真正的行业壁垒。
第三,LLM 控制层。论文没有把 LLM 作为必要控制器,但它也指出,装配式 CV API 很容易被 LLM 通过语言 prompt 调用。Rocky 认为,未来更自然的架构是:LLM 负责任务拆解和工具选择,Grounded SAM 负责视觉定位与 mask 生成,生成/跟踪/分析模型负责后续动作。
第四,行业长尾适配。Grounded SAM 对长尾对象有展示,但行业场景仍需要专门优化。例如工业缺陷、医疗影像、遥感目标、农业病虫害、仓储零件等任务中,类别语义、视觉形态和错误成本都更复杂。通用 Grounded SAM 适合作为冷启动,不能直接等同于行业可用系统。
第五,从静态图像走向视频和具身智能。论文提到可以接 tracking models,如 DEVA,做基于文本 prompt 的目标跟踪。这个方向非常关键。因为现实世界不是单张图,而是连续时间中的对象、状态和动作。Grounded SAM 如果能稳定产生跨帧 mask 和 object identity,就会更接近机器人和视频 Agent 的基础能力。
术语与概念速查
| 概念 | 简明解释 | 在本文中的作用 |
|---|---|---|
| Grounded SAM | Grounding DINO + SAM 的开放词表分割流水线 | 本文主系统 |
| Grounding DINO | 根据任意文本做开放词表检测 | text-to-box |
| SAM | 根据 prompt 生成任意对象 mask | box-to-mask |
| RAM | Recognize Anything Model,图像标签识别模型 | image-to-tags |
| BLIP | 图像 caption / vision-language model | image-to-caption |
| Stable Diffusion Inpainting | 根据 mask 和 prompt 做局部生成编辑 | mask-to-edited-image |
| OSX | 单图 expressive whole-body mesh recovery | human-box-to-3D-mesh |
| SGinW / SegInW | Segmentation in the Wild benchmark | zero-shot 分割评估 |
| HQ-SAM | 更高质量 mask 的 SAM 变体 | 提升 mask 质量 |
| Model Assembly | 把多个专家模型按接口组合 | 本文核心路线 |
| LLM as Controller | 让大语言模型调度工具 | 本文对照路线 |
拓展思考:值得继续扩展研究与思考的创新点
Grounded SAM 最重要的启发,是它把“模型能力”重新解释成“可组合能力”。过去我们习惯问:一个模型能做多少任务?Grounded SAM 问的是:如果每个专家模型都已经足够强,怎样用最少的训练、最清晰的接口,把它们装配成更多任务?
论文结尾提到一个公式:如果以前n nn个模型只能做n nn个任务,那么考虑所有模型组合,理论上可以做2 n − 1 2^n-12n−1个任务。这个说法当然带有理想化成分,因为不是任意模型组合都成立,接口、误差和任务定义都会限制组合空间。但它抓住了一个趋势:AI 系统的能力增长,不只来自单模型 scaling,也来自工具组合和工作流设计。
Rocky 认为,这篇论文放在 2024 年看,最像一个开放世界视觉 Agent 的早期雏形。它还没有完整的规划、记忆、多轮反馈和自动错误修正,但它已经把视觉任务拆成可调用模块:识别、定位、分割、编辑、人体分析、自动标注。这就是 Agent 化的前提。
对创业者和产品团队来说,Grounded SAM 的启发不是“照抄一个 demo”,而是建立自己的行业视觉工作流:你的用户输入是什么?中间表示是什么?哪个模型负责定位?哪个模型负责精修?哪个环节需要人类确认?哪些错误会回流成训练数据?这些问题比单纯换一个更大的模型更重要。
最后回到本文的核心判断:Grounded SAM 的本质不是 SAM 的一个插件,而是开放世界视觉系统的装配式路线。它告诉我们,在基础模型快速演进的阶段,真正有价值的工程能力,往往不是把所有东西揉成一个黑盒,而是把强模型变成可解释、可替换、可闭环的生产系统。
推荐阅读
Rocky一直在运营技术交流群(WeThinkIn-技术交流群),这个群的初心主要聚焦于技术话题的讨论与学习,包括但不限于算法,开发,竞赛,科研以及工作求职等。群里有很多人工智能行业的大牛,欢迎大家入群一起学习交流~(请添加小助手微信Jarvis8866,拉你进群~)
1. 深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2025年可以说是AI Agent全面落地应用的元年,因此Rocky在持续撰写对AI Agent的全维度解析文章:深入浅出完整解析AI Agent(AI智能体)的核心基础知识
2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
和Rocky一起学习探究扩散模型的本质原理与和核心基础知识,同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解:深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识
3. 深入浅出完整解析FLUX.2、Seedream(即梦)、Z-image、GLM-Image核心基础知识
https://zhuanlan.zhihu.com/p/1975174691049189562
4. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识
深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识
5. 深入浅出完整解析DeepSeek系列核心基础知识
深入浅出完整解析DeepSeek系列核心基础知识
6、Sora等AI视频大模型的核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用AI视频大模型,从0到1训练自己的AI视频大模型,AI视频大模型性能测评,AI视频领域未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Sora等AI视频大模型文章地址:深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识
7、Stable Diffusion 3和FLUX.1核心原理,核心基础知识,网络结构,从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画,从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型,Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion 3和FLUX.1文章地址:深入浅出完整解析Stable Diffusion 3(SD 3)和FLUX.1系列核心基础知识
8、Stable Diffusion XL核心基础知识,网络结构,从0到1搭建使用Stable Diffusion XL进行AI绘画,从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型,AI绘画领域的未来发展等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion XL文章地址:深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识
9、Stable Diffusion 1.x-2.x核心原理,核心基础知识,网络结构,经典应用场景,从0到1搭建使用Stable Diffusion进行AI绘画,从0到1上手使用Stable Diffusion训练自己的AI绘画模型,Stable Diffusion性能优化等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
Stable Diffusion文章地址:深入浅出完整解析Stable Diffusion(SD)核心基础知识
10、ControlNet核心基础知识,核心网络结构,从0到1使用ControlNet进行AI绘画,从0到1训练自己的ControlNet模型,从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
ControlNet文章地址:深入浅出完整解析ControlNet核心基础知识
11、LoRA系列模型核心原理,核心基础知识,从0到1使用LoRA模型进行AI绘画,从0到1上手训练自己的LoRA模型,LoRA变体模型介绍,优质LoRA推荐等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
LoRA文章地址:深入浅出完整解析LoRA(Low-Rank Adaptation)模型核心基础知识
12、深入浅出完整解析AIGC时代Transformer核心基础知识
在AIGC时代中,Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向,成为AI技术架构大一统与多模态整合的关键核心基座,大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析:
Transformer文章地址:深入浅出完整解析AIGC时代Transformer核心基础知识
13、最全面的AIGC面经《手把手教你成为AIGC算法工程师,斩获AIGC算法offer!(2024年版)》文章正式发布!
码字不易,欢迎大家多多点赞:
AIGC面经文章地址:手把手教你成为AIGC算法工程师,斩获AIGC算法offer!
14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布!
码字不易,欢迎大家多多点赞:
算法工程师三年面试五年模拟文章地址:https://zhuanlan.zhihu.com/p/545374303
《三年面试五年模拟》github项目地址(希望大家能多多star):https://github.com/WeThinkIn/Interview-for-Algorithm-Engineer
15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识,从0到1搭建AI绘画框架,从0到1使用AI绘画框架的保姆级教程,深入浅出介绍AI绘画框架的各模块功能,深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
AI绘画框架文章地址:深入浅出完整解析主流AI绘画框架(ComfyUI、Stable Diffusion WebUI、Fooocus)核心基础知识
16、GAN网络核心基础知识,网络架构,GAN经典变体模型,经典应用场景,GAN在AIGC时代的商业应用等全维度解析文章正式发布!
码字不易,欢迎大家多多点赞:
GAN网络文章地址:https://zhuanlan.zhihu.com/p/663157306
17. AI算法工程师的《三年面试五年模拟》求职秘籍
AIGC时代的算法工程师的求职面试秘籍(持续更新中)
18. AIGC产业的深度思考与分析
2023年3月21日,微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示,自从1980年首次看到图形用户界面(graphical user interface)以来,以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。
Rocky也认为,AIGC及其生态,会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期,未来随着AIGC的全面落地和深度商用,会深刻改变我们的工作、生活、学习以及交流方式,各行各业都将被重新定义,过程会非常有趣。
那么,在此基础上,我们该如何更好的审视AIGC的未来?我们该如何更好地拥抱AIGC引领的革新?Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点,希望能帮助各位读者对AIGC有一个全面的了解:
深入浅出全面解析AIGC时代核心价值与发展趋势(2025年版)
