当前位置: 首页 > news >正文

【ICLR26-加州大学】GEN2SEG:生成模型实现可泛化的实例分割


文章:GEN2SEG: GENERATIVE MODELS ENABLE GENERALIZABLE INSTANCE SEGMENTATION

代码:https://reachomk.github.io/gen2seg

单位:加州大学戴维斯分校


一、问题背景

人类仅凭有限经验就能识别各类陌生物体,而传统视觉模型的“零样本迁移”往往依赖海量标注数据覆盖多样类别与风格。在实例分割任务中,现有模型要么需要大规模标注数据(如SAM依赖1100万张图像和11亿个掩码),要么难以泛化到未见过的物体类型和图像风格。如何让模型仅通过少量窄域数据训练,就具备强大的跨类别、跨风格实例分割能力,成为亟待解决的核心问题。

二、方法创新
文中没有提供pipline图。

  1. 核心思路:借助生成模型的图像合成能力——生成模型在合成场景时需理解物体边界和结构,天然蕴含感知分组机制,将其适配到类别无关的实例分割任务。

  2. 模型选择与微调:基于Stable Diffusion 2和MAE(仅经ImageNet-1K预训练),通过端到端微调实现分割,无需互联网规模预训练或文本监督。

  3. 实例着色损失设计:将分割掩码编码为RGB图像(每个实例分配唯一颜色、背景为黑色),设计三重损失: intra-实例方差损失(保证实例内像素颜色一致)、inter-实例分离损失(推开实例外像素与实例颜色)、均值分离损失(区分不同实例的颜色中心),无需固定颜色映射即可实现精准分割。

  4. 点提示分割方案:通过高斯加权平均计算提示点的查询向量,结合相似度映射与双边滤波,实现简单高效的点提示二进制掩码生成,无需额外训练掩码解码器。

三、实验结果

  1. 零样本泛化表现:在COCOexc、DRAM(艺术)、EgoHOS(第一视角)、iShape(精细结构)、PIDRay(X光)5个数据集上,SD模型性能接近强监督的SAM,iShape数据集上mIoU达51.4,远超SAM的16.8。

  2. 边缘检测优势:BSDS500数据集上,SD模型边缘AP达93.4,显著优于SAM的79.0,即使训练数据为多边形边缘的COCO,仍保持10个百分点以上的优势。

  3. 数据鲁棒性:仅用5类物体(书籍、椅子等)或简单形状数据集(ClevrTex)训练,仍能保持良好泛化;面对色调调整、灰度化等图像扰动,掩码质量下降有限。

  4. 高效训练特性:SD模型仅需4块RTX6000 Ada GPU训练29小时(8.7万张图像、370万掩码),远低于SAM的256块A100 GPU训练68小时的成本。

四、优势与局限

优势
  1. 泛化能力突出:无需见过目标类别掩码,就能分割人类、动物、印象派艺术、X光图像等未训练场景,突破数据依赖。

  2. 细节分割精准:在精细结构(如电线)和模糊边界(如马车与马匹)分割上优于SAM,边缘更清晰。

  3. 训练高效灵活:仅需微调解码器或少数层即可达到理想效果,支持少量标注数据训练,适配不同硬件资源。

  4. 鲁棒性强:对图像颜色、纹理变化不敏感,适配复杂真实场景。

局限
  1. 小物体分割薄弱:受预训练偏置影响,对小型物体的分割性能较差(COCO S exc的mIoU仅8.5)。

  2. 训练分辨率受限:微调分辨率低于SAM(480×640/224×224 vs 1024×1024),可能影响细节捕捉。

  3. 部分场景边界模糊:倾向于将云层、草地等归为背景,高召回率场景下精度下降。

五、一句话总结

GEN2SEG通过生成模型的固有分组机制与创新实例着色损失,实现了仅需窄域数据训练就能跨类别、跨风格的精准实例分割,为低成本、高泛化的视觉感知任务提供了新范式。

http://www.jsqmd.com/news/360029/

相关文章:

  • 丹诺医药拿到IPO备案:暂无收入,9个月亏1.15亿 估值20亿
  • 大数据领域数据产品的用户体验设计的心理学原理
  • 2026年评价高的电梯公司推荐:济南电梯保养、济南电梯改造、济南电梯更新、济南电梯维修、电梯更新、电梯保养选择指南 - 优质品牌商家
  • 2026年电梯改造厂家最新推荐:济南电梯保养/济南电梯改造/济南电梯更新/济南电梯维修/电梯更新/电梯保养/选择指南 - 优质品牌商家
  • Meta第四季营收599亿美元:净利228亿美元 同比增9%
  • AI绘画创业法律风险:必须了解的10个合规要点
  • 股市估值差异对国际技术标准制定的影响
  • 2026年绵阳婚庆租车厂家最新推荐:绵阳租车平台、自驾租车、豪车租赁、越野车租赁、7座商务车租赁、企业租车选择指南 - 优质品牌商家
  • 2026年评价高的商标设计公司推荐:培训机构logo设计/培训机构商标设计/简约1ogo设计/简约商标设计/选择指南 - 优质品牌商家
  • 操作数据和分析数据
  • ComfyUI中光影效果的深度运用与创作思考
  • 大数据存算分离架构的跨区域数据同步
  • 王宝强身家上亿,亲哥哥却在村头卖大饼,哥哥的回答太扎心了?
  • 主持人问蒋大为:你是加拿大国籍,为什么回国捞钱?蒋大为:我老婆跟女儿是加拿大国籍,但我是中国人
  • 7个实战技巧精通Cantera:化学系统模拟从入门到工业应用
  • 2026年辽宁房产工程律师公司权威推荐:辽宁民事纠纷律师/辽宁法律顾问律师/辽宁破产重整律师/辽宁行政诉讼律师/选择指南 - 优质品牌商家
  • 使用阿里小云KWS模型构建语音控制智能灯具系统
  • 2026年辽宁知识产权律师厂家推荐:辽宁房产工程律师、辽宁民商代理律师、辽宁法律顾问律师、辽宁破产重整律师选择指南 - 优质品牌商家
  • 特大喜讯!中方当着全球的面宣布:新组织正式成立!43国请求加入,美日想不到的事发生...
  • 手滑封神!韩国交易所错发 62 万枚比特币,币圈当场吓崩了
  • 2026年02月08日最热门的开源项目(Github)
  • 腾讯混元翻译大模型实战:Streamlit界面操作指南
  • 2026年评价高的辽宁行政诉讼律师公司推荐:辽宁交通事故律师/辽宁仲裁执行律师/辽宁企业法律顾问律师/选择指南 - 优质品牌商家
  • 2026年评价高的路灯锂电池公司推荐:老年车锂电池/货三轮锂电池/道路太阳能路灯/高杆太阳能路灯/选择指南 - 优质品牌商家
  • translategemma-4b-it多场景应用:医疗报告、技术手册、菜单图文翻译实测
  • SiameseUIE在医疗文本分析中的应用:病历信息结构化
  • EmbeddingGemma-300m小样本学习能力展示:有限数据下的出色表现
  • RetinaFace在GitHub上的开源项目分析与贡献指南
  • 3大方案突破Rhino建模效率瓶颈:RhinoPython脚本编程实战指南
  • 实时手机检测镜像运维手册:Supervisor日志分析与故障自愈技巧