当前位置: 首页 > news >正文

利用弱监督学习实现高效图像分割

计算机视觉

学习在无需手动分割训练数据的情况下分割图像

机器学习方法依赖粗略的“边界框”图像标签,但仍能提供最先进的分割结果。

作者:Siddhartha Chandra
2020年9月1日
3分钟阅读

语义分割是一项自动将数字图像中的每个像素标记为属于多个类别(人、猫、飞机、桌子等)之一的任务,其应用包括基于内容的图像检索、医学成像和物体识别等。

基于机器学习的语义分割系统通常使用人工精心描摹物体边界的图像进行训练,这是一个耗时的操作。相比之下,目标检测系统可以使用以矩形(称为边界框)框定物体的图像进行训练。对于人工标注员来说,手动分割一幅图像平均需要的时间是标注边界框的35倍。

在上周欧洲计算机视觉会议(ECCV)上发表的一篇论文中,我们描述了一个名为Box2Seg的新系统,它仅使用边界框训练数据就能学习分割图像,这是一种弱监督学习的示例。在实验中,我们的系统在平均交并比(mIoU)这一指标上比之前的弱监督系统提高了2%,该指标衡量系统对图像的分割与手动分割之间的一致性。我们的系统性能也与在通用图像数据上预训练然后在完全分割数据上训练的系统相当。

此外,当我们使用弱监督方法训练一个系统,然后在完全分割数据上对其进行微调时,其性能比在通用图像数据上预训练的系统提高了16%。这表明,即使存在分割训练数据,使用我们的弱监督方法进行预训练仍然具有优势。

噪声标签

我们的方法是将边界框视为噪声标签。我们将框内的每个像素视为被标记为我们试图找到边界的物体的一部分;然而,其中一些像素被错误地标记了。我们将框外的所有像素视为正确标记的背景像素。

在训练过程中,我们系统的输入会经过三个卷积神经网络:一个物体分割网络和两个辅助网络。在实际操作中,我们会丢弃辅助网络,因此它们不会增加部署系统的复杂性。

研究人员训练模型的架构。边界框本身的位置(B)和GrabCut分割算法提供的粗略分割(M)有助于监督物体分割网络(θy)和两个辅助网络(θa和θb)的训练。

其中一个辅助网络对图像中的像素进行成对比较,试图学习区分背景和前景的通用方法。直观地说,它是在寻找边界框内与框外正确标记的背景像素相似的像素,以及框内彼此不相似的像素簇。我们将这个网络称为嵌入网络,因为它学习了一种像素的向量表示——即嵌入——它捕捉了那些对区分背景和前景有用的属性。

我们使用一个名为GrabCut的标准分割算法提供的相对粗略的分割来预训练嵌入网络。在训练期间,嵌入网络的输出为物体分割网络提供了一个监督信号;也就是说,我们用于评估嵌入网络性能的标准之一是它的输出与物体分割网络输出的一致性。

研究人员嵌入网络识别的亲和性示例。较亮的区域表示网络认为有共同点的像素。

另一个辅助网络是特定标签的注意力网络。它学习识别在具有相同标签的边界框内的像素中频繁出现的视觉属性。它可以被看作一个目标检测器,其输出不是物体标签,而是一个突出显示特定物体类别特征像素簇的图像地图。

从左到右:图像的手动分割;边界框结合GrabCut算法提供的粗略分割;以及边界框结合研究人员特定标签注意力网络的输出。在第三组图像中,靠近光谱红色端的颜色表示在具有特定标签的边界框内频繁出现的图像特征。在训练期间,物体分割网络应特别关注这些特征。

特定标签的注意力网络仅对其训练期间见过的物体类别有用;其输出对于未训练过的物体类别可能是适得其反的。但在训练期间,它与嵌入网络一样,提供了一个有用的监督信号,这有助于物体分割网络学习执行更通用的分割。

在使用标准基准数据集进行的实验中,我们发现,仅使用边界框训练数据,Box2Seg就优于其他12个在全分割训练数据上训练的系统。当使用Box2Seg训练的网络在全分割数据上进行微调时,性能提升更为显著。这表明,当没有全分割训练数据可用时,甚至当有数据时,物体分割的弱监督训练也可能是有用的。

研究领域
计算机视觉
标签
图像分割
弱监督学习
欧洲计算机视觉会议 (ECCV)

会议
ECCV 2020

相关出版物
Box2Seg: 用于弱监督分割的注意力加权损失和判别性特征学习

关于作者

Siddhartha Chandra 是某机构计算机视觉-机器学习部门的应用科学家。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/536422/

相关文章:

  • 嵌入式C语言实用程序开发技巧
  • 深入图解 ConcurrentHashMap 底层实现:从 JDK1.7 到 1.8 的史诗级蜕变
  • 从爬取到预测:基于Python的招聘数据全链路分析与可视化实战(含薪资预测模型)
  • ST25DV64KC动态NFC标签Arduino驱动库详解
  • OpenClaw报错排查大全:GLM-4.7-Flash接口连接失败解决方案
  • 西城区三字堂硬笔书法
  • 4大突破:面向全场景的聊天应用UI设计方案
  • 解决 cl.exe 构建和调试活动文件仅在 VS Code 从 Developer Command Prompt 中运行时才可用的效率优化方案
  • OpenClaw性能白皮书:Qwen3.5-9B在不同任务类型的基准测试
  • OpenClaw养虾逻辑:目的决定架构,用途决定安全,角色决定权限
  • node-sass 构建失败问题解决方法
  • OpenClaw社区资源利用:Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF相关插件与技能推荐
  • OpenClaw负载监控:QwQ-32B长时间运行的稳定性保障
  • 【完整源码+数据集+部署教程】导盲犬辅助物体检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]
  • CF1398D Colored Rectangles
  • ATtiny85极简Si5351 CLK0驱动:100–150MHz单频点时钟配置
  • EPO蛋白在肾性贫血诊断中的应用研究
  • 数据密集型文件的高效压缩技术:从原理到企业级解决方案
  • 基于cosyvoice 2声码器的实时语音合成实战:从选型到生产环境部署
  • 《QGIS快速入门与应用基础》238:添加指北针工具
  • 嵌入式C语言面试核心问题与实战技巧
  • ChatGPT API限额优化实战:如何突破并发限制与成本控制
  • 如何突破高频数据处理瓶颈?Qlib订单簿引擎实战指南
  • 杰理之 检查触摸数据【篇】
  • 一键部署生产力:星图平台OpenClaw+Qwen3.5-9B体验
  • 从带宽爆炸到95%成本下降:C#上位机+Azure IoT Edge 仓储AGV边缘计算全流程落地
  • ⋐ 13-2 ⋑ 软考高项 | 第18章:项目绩效域 [ 下 ]
  • CF2103A Common Multiple
  • ChatGPT API路由错误(409)排查指南:从invalid client到稳定集成的解决方案
  • 金蝶云星空与每刻报销系统对接方案:精准数据处理