当前位置: 首页 > news >正文

复旦、创智联合推出RSAgent:多轮工具调用提升视觉分割准确率,多项测试领先!

智能体时代的视觉分割难题

智能体时代,视觉分割一直是个“说起来简单,但做起来容易失手”的任务。给模型一张图、一句话,让它把目标区域的像素圈出来,听起来直接,但一旦目标含糊、被遮挡,或者需要推理才能定位,一次性猜出正确的掩码就变得相当困难。

RSAgent的推出与原理

为此,复旦、创智联合推出RSAgent,相关工作已入选ICML 2026。RSAgent团队认为,现有方法缺少的,不是更强的分割头,而是“确认和纠错”的过程。他们推出的RSAgent,是一个让多模态大模型通过多轮工具调用,完成文本引导分割的智能体框架。

模型不再一次性输出mask,而是先观察图像、进行推理、调用视觉工具、读取反馈,再根据历史结果迭代修正,最终生成更可靠的准确掩码。实验结果显示,RSAgent在ReasonSeg测试集上的gIoU相比Seg - Zero - 7B提升了9.0个百分点,在RefCOCOg数据集上取得了81.5%的平均cIoU,并生成了5000条以上的多轮推理分割轨迹。

开放语义分割的挑战与应对

多模态大语言模型(MLLM)已经能够描述图像、回答问题、理解物体关系,但真实视觉系统需要的不只是文字答案。交互式标注、机器人感知、设计编辑、工业质检和科学图像分析都要求模型把语言理解落实到像素区域。也就是说,模型必须在“语义理解”和“准确掩码”之间完成可靠转换。

开放语义文本引导分割的挑战在于,输入指令并不总是简单的类别名,用户可能说“图中左侧正在被人拿起的物体”,也可能说“找出湍急水流中保障个人安全的装备”。前者需要空间关系,后者需要场景常识和用途推理。模型如果只进行一次前向预测,就很难验证自己是否选对了目标。此前路线的短板并不是“不能产生mask”,而是“缺少确认与纠错过程”。

一旦最初定位偏离、点位提示落在背景、候选区域只覆盖局部,模型往往没有机会重新观察、缩放视图、读取候选结果并调整策略。RSAgent正是针对这一痛点,把分割任务从静态预测变成动态交互。团队表示,痛点不是单纯追求更复杂的分割头,而是让模型在开放语义任务中具备“先判断、再行动、看反馈、再修正”的能力。

RSAgent的解决方法

RSAgent的关键不是把MLLM直接改造成一个mask decoder,而是让它成为能够调度视觉工具的智能体。模型在每一轮接收原图、文本指令和历史观察,输出结构化推理与tool call;工具返回局部视图、候选掩码或overlay;模型再基于这些反馈决定继续调用工具、调整提示,或者提交最终答案。

RSAgent通过多轮工具调用持续定位、观察和修正,其总体框架包括多轮交互、工具调用、观察反馈、cold - start SFT与agentic RL。具体技术模块及其作用如下:在数据层面,RSAgent通过自动合成与严格筛选构建训练轨迹。论文中cold - start SFT数据约包含5K条高质量多轮推理轨迹;RL阶段使用约2K个RL示例,并额外加入8K个RefCOCOg训练样本,使模型在交互环境中学习更高回报的工具调用路径。

团队表示,真正的关键不只是“调了工具”,RSAgent把推理、工具、反馈与奖励闭合为一个训练体系。模型既要理解目标,也要学会自适应地缩放、提示、分割和停止,最终把开放语义理解落实为准确掩码。

具体来看,RSAgent的一次交互可以理解为四步循环:Observation读取图像与历史结果;Thought用自然语言分析当前候选区域是否满足指令;Action选择工具和像素提示;Feedback接收工具输出并写入上下文。这个循环让模型不再依赖单次判断,而是具备逐步验证的机制。这种机制尤其适合关系型、属性型和隐含推理型指令,例如目标可能很小、被遮挡,或需要根据动作、用途和相对位置来判定。RSAgent可以先粗定位,再查看局部区域,随后依据候选掩码的偏差重新指定点或框。相比一次性预测,它多了一个可审查的中间过程。

训练策略上,cold - start SFT解决“会不会按格式工作”的问题,让模型掌握工具调用语法和基本反思流程;agentic RL解决“怎样做得更好”的问题,通过奖励信号优化多轮路径。二者组合,使RSAgent既能稳定输出结构化结果,也能在复杂开放语义样本上学习更优决策。

实验结果与分析

实验使用Qwen2.5 - VL - 7B - Instruct作为基础模型,SAM2 - large作为分割工具。团队在RefCOCO系列和ReasonSeg上进行系统评测,并与传统视觉语言分割器、单次MLLM分割方法、显式CoT/RL分割方法和多轮工具调用agent等多类方法比较。

结果显示,RSAgent在RES和ReasonSeg基准上取得领先表现。具体评测结果如下:在ReasonSeg test上,RSAgent达到66.5% gIoU,相比Seg - Zero - 7B的57.5%提升9.0个百分点;在RefCOCOg上,RSAgent达到约81.5%平均cIoU,test split为81.8。对于依赖开放语义推理的目标分割任务,这说明模型不仅能理解描述,还能更稳地把理解转化为准确掩码。

消融实验显示,提升并非来自单一模块。未训练的tool - agent在ReasonSeg test上只有30.1 cIoU;加入cold - start SFT后提升至55.4;仅RL为54.3;完整的cold - start SFT + RL达到57.9。这表明,先让模型学会规范工具调用,再通过强化学习优化长程决策,是RSAgent成立的关键。

奖励设计同样关键。移除final reward、process reward或format reward都会造成性能下降;其中去掉final reward后,ReasonSeg test从57.9降至48.3,说明最终掩码质量仍是核心目标。process reward则鼓励模型在中间步骤持续改进,而不是盲目增加工具调用次数。

RSAgent的价值与意义

RSAgent的价值不只是刷新指标。更重要的是,它展示了一条从“看图问答”走向“视觉行动”的路径:模型可以围绕文本目标持续观察、调用工具、接受反馈、修正假设,并把最终判断落实到图像像素。这类能力对交互式视觉系统具有通用意义。

对于数据标注,它有望减少人工反复试错;对于机器人感知,它让模型在执行前重新确认目标区域;对于设计编辑和内容生产,它可以把自然语言意图转化为更稳定的可编辑区域;对于科学图像分析,它提供了可回看、可复核的中间过程。

从更大的趋势看,RSAgent把开放语义理解、工具调用和像素级执行连接起来。它说明多模态大模型不必停留在“回答图像问题”,也可以在视觉空间中主动探索、试错和修正。这个方向将视觉智能体推进到更接近真实任务的形态。一言以蔽之,RSAgent证明了多模态大模型可以从“结合文本与图像内容”进一步走向“在像素空间中推理、行动和自我修正”。

论文团队介绍

最后介绍一下论文团队。作者团队来自复旦大学、上海创智学院、上海交通大学等单位,论文共同一作为何星旗、张钰杰。何星旗为复旦大学一年级硕士生,研究方向为Vision - Language Model Reasoning、Reinforcement Learning。张钰杰为上海创智学院、复旦大学联合培养博士生,主要研究方向为Vision - Language Model Reasoning、Reinforcement Learning与Large Language Models。论文:https://arxiv.org/abs/2512.24023 ,GitHub:https://github.com/Nicola777 - ai/RSAgent 。

http://www.jsqmd.com/news/898756/

相关文章:

  • 葫芦岛专业贴膜店推荐|正品授权、无尘施工、口碑靠谱精选 - 资讯纵览
  • AntiDupl终极指南:免费开源智能图片去重工具完整使用教程
  • LCC补偿网络在智能车无线充电系统中的应用与优化设计
  • 北京漏水检测公司 TOP3 推荐(2026 新)全城上门精准定位 - 优质商家优选指南 - 资讯纵览
  • 无锡白蚁防治|本地11年专业灭白蚁,典雅虫控无损治蚁,3-5年长质保杜绝复发 - 资讯纵览
  • 辽宁省锦州CPPMSCMP官网报考入口,官方授权双证报考中心 - 众智商学院课程中心
  • 二进制补丁技术:Adobe Creative Cloud许可验证的逆向工程实现
  • 从引脚信号到系统设计:深入解析8088/8086 CPU最小模式下的总线交互与硬件实现
  • 2026年老人亲肤纸尿裤专业选择手册:材质安全、使用体验与场景适配全解析 - 万事通达
  • FSearch:Linux上3秒找到任何文件的终极搜索方案
  • 越秀区搬家公司电话 跨省搬家大件运输全攻略 - 从来都是英雄出少年
  • Allegro封装更新后焊盘错位:从库到PCB的定位与修复实战
  • KingbaseES数据库对象管理工具:从入门到精通的图形化运维指南
  • 苏州企业厂房搬迁怎么选?2026避坑全攻略 - 幸福生活序曲
  • 3D重建模型“会看”不会“改”?VGGT-Edit最高120倍加速,让3D编辑接近实时交互
  • 广州学校标识标牌定制常见问题解答(2026专家版) - 资讯纵览
  • 鸣潮游戏自动化终极指南:如何用智能助手解放双手,实现高效后台运行
  • 在银河麒麟与飞腾平台上从源码构建Qt 5.9开发环境的实战解析
  • 2026年平价好用姨妈巾品牌深度分析:选型规则与高性价比品牌推荐 - 万事通达
  • 2026年合肥灭蟑螂公司|合肥专业灭蟑螂认准净安虫控,根除蟑螂杜绝反复繁殖 - 资讯纵览
  • ROS多机协同实战:从零搭建主从机通信网络
  • 2026年安平车间隔离护栏网厂家推荐及技巧分享 - 资讯纵览
  • SpringBoot+Vue宠物医院项目实战:从零到部署,手把手教你搞定RBAC权限与多端登录
  • 海南口碑好的geo优化企业 - 资讯纵览
  • 辽宁省营口CPPMSCMP官网报考入口,官方授权双证报考中心 - 众智商学院课程中心
  • 别再只盯着安装了!Agile Controller-Campus部署后,如何用华为交换机做802.1X认证的完整联调指南
  • RTX 5070 Ti vs RTX 4090 Ti对比 专业数码硬件对比工具网站hmc-tech.com 网站介绍
  • 使用Python配合Taotoken快速搭建一个多模型对话测试工具
  • 从EFT/ESD到辐射:电机控制系统EMC设计实战与标准解析
  • 2026年10款降AIGC网站横评:最高AI率100%直降至0.12% - 降AI小能手