当前位置: 首页 > news >正文

ICML 2025 | 贝叶斯熵 + 多模态提示,USAM 重新定义 SAM 不确定性量化框架

Segment Anything Model(SAM)凭借强大的通用分割能力,成为计算机视觉领域的“明星模型”,但在医疗诊断、自动驾驶等安全关键场景中,仅能完成分割还不够——我们需要知道SAM的预测“有多靠谱”!近日,Timo Kaiser等人提出的UncertainSAM(USAM),为SAM打造了一套高效的不确定性量化方案,既解决了传统方法计算成本高的问题,又能精准定位不确定性来源,让SAM的应用更可控、更可靠。

一、为什么要给SAM做“不确定性体检”?

SAM的出现让任意对象分割变得简单,但它的预测并非绝对准确:小模型可能漏分割鱼尾细节,模糊的提示可能让SAM“误解”分割目标,甚至同一提示下SAM可能输出多个合理结果——这些都是SAM的“不确定性”,主要来自三个方面:

  • 模型不确定性(认知不确定性):模型参数不足导致的误差(比如小模型精度不如大模型);
  • 提示不确定性(偶然不确定性):提示信息不充分(比如单个坐标点没精准指向目标);
  • 任务不确定性(偶然不确定性):分割任务本身模糊(比如提示点可能对应多个对象)。

传统的不确定性量化方法要么依赖SAM自带的置信度分数(SamScore),要么用测试时增强等耗时策略,既不准确又不高效。而UncertainSAM的出现,恰好填补了这一空白。

图1:小型SAM模型(左)因参数不足漏分割鱼尾细节,大型模型(右)则能精准分割,可见模型不确定性的实际影响

二、UncertainSAM的核心创新:精准+高效的双轮驱动

UncertainSAM的核心突破在于“理论框架+轻量级实现”的结合,既建立了完整的不确定性量化体系,又解决了落地难的问题。

创新点1:首个SAM专属贝叶斯不确定性量化框架

论文首次为SAM的类无关特性量身打造贝叶斯熵近似方法,通过蒙特卡洛采样思路,把图像增强、多提示采样、多模型集成、多任务掩码生成结合起来,精准拆解出模型、提示、任务三类不确定性。这套框架为SAM的不确定性分析提供了“黄金基准”,能清晰定位每一种误差来源。

创新点2:轻量级USAM估计器,实时量化不确定性

贝叶斯方法虽精准,但计算成本极高——而USAM直接“借力”SAM的预训练特征,用简单的多层感知机(MLP)实现了高效推理: 它将SAM输出的256维掩码令牌(mask token)和IoU令牌拼接,输入到三层MLP中,端到端训练后直接预测不确定性,无需复杂采样,真正做到“实时量化”。

图2:USAM方法总体结构——直接利用SAM的掩码令牌和IoU令牌,通过MLP快速预测各类不确定性

创新点3:多场景验证,性能+效率双优

USAM在SA-V、MOSE、ADE20k、DAVIS、COCO等多个主流数据集上完成验证,既能精准指导“是否需要换大模型”“是否需要优化提示”,又能大幅降低计算成本,相比贝叶斯方法效率提升显著。

三、UncertainSAM的核心玩法:精准定位不确定性来源

USAM的核心价值在于,不仅能判断“SAM预测不可靠”,还能说清“为什么不可靠”,并给出解决方案:

1. 模型不确定性:该不该换大模型?

USAM能量化“小模型是否够用”——如果Tiny模型的不确定性高,说明换Large模型能显著提升精度;若不确定性低,用小模型就能兼顾效率和精度,还能降低能耗。实验中,USAM的MLP(Δ^*_Θ)与贝叶斯熵(H_Θ)性能相当,且计算成本可忽略,是节能又精准的选择。

2. 提示不确定性:要不要优化提示?

单个坐标提示可能不够精准(比如遮挡的自行车),USAM能识别这种“提示不足”的情况,提醒用户优化提示(比如增加多个坐标点)。实验中,USAM的Δ^*_X_P在提示优化任务中表现略优于贝叶斯方法,能精准定位需要优化的提示样本。

3. 任务不确定性:要不要人工监督?

SAM会输出多个掩码提议,实际应用中常选SamScore最高的,但可能并非最优。USAM能识别“任务模糊”的样本,提醒人工选择匹配真实值的掩码,在任务监督场景中,USAM的性能远超贝叶斯方法和传统SamScore。

图4:USAM可视化案例——左列:高/低提示不确定性样本(自行车提示不足导致分割不准);中列:高/低任务不确定性样本(提示点可能对应多对象);右列:模型不确定性样本(小模型分割斑马不如大模型)

四、实验说话:USAM凭什么成为新SOTA?

论文通过大量实验验证了USAM的优势,核心结论如下:

1. 性能碾压传统方法

在分割不确定性量化任务中,预测IoU的USAM_L模型AUC得分远超SamScore、像素熵等传统方法;即使是SamScore专门优化的任务,USAM的表现也更优。

2. 效率一骑绝尘

贝叶斯方法依赖蒙特卡洛采样,计算时间大幅增加;而USAM的MLP几乎不增加额外耗时,甚至比计算像素熵更快,真正做到“实时量化”。

表7:USAM与其他方法的运行时间对比——USAM的MLP计算开销最低,贝叶斯方法耗时显著更高

3. 特征有效性验证

将掩码令牌或IoU令牌置0后,USAM的性能虽有下降但仍保持准确,而两者结合时效果最佳,证明SAM的这两类令牌包含了丰富的不确定性信息。

五、总结:让SAM从“能用”到“好用”

UncertainSAM的核心贡献,是为SAM建立了首个完整的不确定性量化理论框架,同时用轻量级的USAM估计器解决了落地难题。它不仅能精准识别SAM预测的不可靠区域,还能定位根源——是模型不行、提示不好,还是任务模糊?

在安全关键领域,这种“知其然也知其所以然”的不确定性量化能力,让SAM从“通用分割工具”升级为“可靠的决策辅助系统”。而USAM的高效性,也让它能轻松集成到实际应用中,兼顾精度与能耗。

未来,将USAM融入SAM的训练过程,或许能进一步提升SAM的不确定性处理能力——这也为SAM的迭代升级指明了新方向。毕竟,在计算机视觉的落地场景中,“知道自己哪里不行”,比“单纯做得好”更重要。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/517947/

相关文章:

  • Vue项目登录页刷新报错?手把手教你解决‘undefined is not valid JSON‘问题
  • 用Python和NumPy手把手实现多智能体仿射队形控制(附完整代码与避坑指南)
  • 嵌入式开发实战:MIPI-DSI与I2C接口在LCD触控屏中的协同工作原理
  • 别再死记硬背Attention了!用Python手写一个Seq2Seq翻译模型,直观理解Encoder-Decoder的瓶颈
  • 内存池监控不是加个malloc钩子就够了!揭秘某智能电网项目因监控粒度粗0.1ms导致的3次I级事故
  • 基于RexUniNLU的智能内容审核系统开发
  • AutoJs悬浮窗实战:从零打造可拖拽控制面板(附完整源码解析)
  • 告别CNN黑箱?用Vision Transformer做医学影像分割的实战避坑指南
  • 低成本改造阳台小菜园:用Arduino+继电器模块实现定时滴灌系统
  • Transformer模型中的自注意力机制:从零开始手把手实现(附Python代码)
  • FLAC3D耦合PFC3D隧道开挖模拟:位移连续性与地表沉降规律
  • 大班匠搬家公司联系方式:关于选择专业搬家服务提供商的使用指南与行业普遍注意事项 - 品牌推荐
  • 15 三数之和
  • 北京名人手抄本、老医书、族谱上门回收,线装古籍全品类收 - 品牌排行榜单
  • 【Dify高阶实战指南】:3个生产级异步节点自定义陷阱,90%团队部署后才后悔没看
  • FLAC3D与PFC3D耦合边坡模型,位移连续性优异
  • 10米哨兵数据+腾讯定位:手把手教你用多源数据制作城市土地利用地图
  • 山东瑞派职业培训学校联系方式:解析其官方合作背景与实战化教学体系,为职业技能学习者提供客观参考 - 品牌推荐
  • Qwen3-32B-Chat百度搜索热词覆盖:开源大模型部署、GPU算力优化、私有化AI
  • 实战指南:在Rocky Linux上部署Strix并集成GLM-4.5-flash进行智能渗透
  • 树莓派4B最新系统下Python程序开机自启指南:systemd服务配置详解
  • OpenClaw 找不到处理 ACP(Agent Client Protocol,代理客户端协议)请求的后端服务。
  • 基于扩展卡尔曼滤波的永磁同步电机转子位置及转速估计 simulink仿真 纯自己手工搭建
  • 深入浅出 Claude Code 底层原理
  • 微软账户VS本地账户:Win10密码找回的3种终极方案(含PE工具对比)
  • 模电实战——下拉电阻如何为MOS管栅极“上锁”
  • AI 不会写代码也能做 App?字节「扣子 Coze」正在降低 AI 开发门槛
  • 聊聊国外博士申请机构排名,曼汉国际靠前口碑怎么样? - mypinpai
  • 山东瑞派职业培训学校联系方式:解析其官方合作背景与实战化教学体系对学员职业发展的潜在价值 - 品牌推荐
  • 获取用户详情ThreadLocal 更新用户头像 当没有实体类接收json参数时使用Map来接收 实体类转换成JSON是指定日期格式