当前位置: 首页 > news >正文

最大规模机器人抓取训练数据集发布

为了提升仓库中执行分拣、打包等任务的机器人性能,某机构公开发布了工业产品分拣场景中采集到的最大规模图像数据集。此前最大的工业图像数据集仅包含约100种物品,而名为ARMBench的某中心数据集则涵盖了超过190,000种物品。因此,该数据集可用于训练能够更好地适应新物品和新环境的“抓取和放置”机器人。

这项研究工作将在今年春天的国际机器人与自动化会议(ICRA)上发表的论文中详细介绍。ARMBench图像采集的场景涉及一个机械臂,它需要从装满物品的箱子中抓取单个物品,并将其转移到传送带上的托盘中。物品的多样性、其摆放方式以及与机器人系统的交互,使得这项任务具有独特的挑战性。

ARMBench包含了三个独立任务的图像集:

  1. 物体分割:识别同一箱子中不同产品的边界。
  2. 物体识别:确定参考数据库中的哪个产品图像与图像中高亮显示的产品相匹配。
  3. 缺陷检测:判断机器人是否出现错误,例如一次抓取了多个物品或在转移过程中损坏了物品。

数据集中的图像分为三类:

  • 抓取图像:机器人处理前,装有物品的箱子的俯视图。
  • 转移图像:机器人将物品转移到托盘过程中,从多个视角捕获的图像。
  • 放置图像:放置了所选物品的托盘的俯视图。

物体分割数据集包含超过50,000张图像,每张图像有1到50个手动分割的物体,平均约10.5个。高度杂乱的背景,加上物品的多样性(有些甚至是透明或反光的),使其成为一个具有挑战性且独特的基准。

物体识别数据集包含超过235,000个带有标签的“抓取活动”;每个抓取活动包含一张抓取图像和三张转移图像。此外,还有超过190,000种产品的参考图像和文字描述;在物体识别任务中,模型必须学习如何将这些参考产品之一与抓取和转移图像中高亮的物体进行匹配。这项任务面临的挑战包括区分外观相似的产品、匹配不同视角下的图像,以及融合图像和文本等多模态信息以进行预测。

缺陷检测数据集包括静态图像和视频。静态图像超过19,000张,是在转移阶段捕获的,用于训练缺陷检测模型,以判断机械臂是否意外损坏了物体或一次抓取了多个物体。4,000个视频记录了导致产品损坏的抓放活动。某些类型的产品损坏最好通过视频诊断,因为它们可能发生在转移过程中的任何时刻;相比之下,多抓取错误必然发生在转移开始时,在图像中即可见。数据集还包含超过100,000次无任何缺陷的抓放活动的图像和视频。

仓库环境中对缺陷检测的严苛精度要求,推动了对图像分类、异常检测以及视频中缺陷事件检测等多项关键计算机视觉技术的探索和改进。在论文中,介绍了构建ARMBench任务模型的几种方法,并报告了模型在这些任务上的性能,以便为其他研究人员提供性能基准。

计划继续扩展ARMBench数据集中的图像和视频数量,以及它们所描绘的产品范围。希望ARMBench能有助于提升机器人的实用性,从而将仓库工作人员(例如某中心履约中心的数十万员工)从重复性任务中解放出来。同时,也希望ARMBench数据的规模、多样性及其标注质量,能够使其不仅限于训练控制仓库机器人的模型,还能用于训练其他类型的计算机视觉模型。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/170292/

相关文章:

  • Vue.Draggable内存优化探索:从页面卡顿到性能提升的实践之旅
  • 5分钟搞定AutoHotkey键盘布局切换器:告别多语言输入烦恼的终极方案
  • 软件学院勤工助学系统设计与实现开题报告
  • Android分页指示器终极指南:DotsIndicator完美解决方案
  • exo + tinygrad:Linux 节点设备能力自动探测(NVIDIA / AMD / CPU 安全兜底)
  • Chinese-Annotator:终极中文文本标注解决方案,让NLP数据处理变得简单高效
  • btop4win:Windows系统性能监控的终极指南
  • 使用SSH执行远程TensorFlow训练脚本无需图形界面
  • 清华源配置方法汇总:适用于pip、conda、docker等多种场景
  • 肉食鸡销售数据智能分析平台的设计与实现
  • 2025年比较好的医疗款静电纺丝设备/对喷型静电纺丝设备优质厂家推荐榜单 - 品牌宣传支持者
  • ComfyUI-Diffusers 强力整合:解锁AI绘图新境界
  • 2025年质量可靠的钨丝拉丝机厂家、环保型供应商年度排名全解析 - 工业设备
  • 创作革命:Manuskript如何重塑你的写作体验
  • MySQL函数详解和日常运用
  • 肉食鸡销售数据智能分析平台的设计与实现开题报告
  • 上海全屋定制哪家性价比高?2025上海全屋定制品牌综合榜单 - 栗子测评
  • DETR实例分割实战指南:用Transformer同时搞定检测与分割
  • 【EVE-NG流量洞察】1、以太网帧格式
  • 5 倍性能提升,Apache Doris TopN 全局优化详解|Deep Dive
  • Keil新建工程步骤图解:驱动开发一文说清
  • 轻量可定制!一款开源的 Windows 桌面硬件监控软件!
  • Lago体验定价终极指南:如何用开源方案实现公平透明的价值计费
  • 终极英语学习效率革命:5分钟专注力提升完整指南
  • 机器人感知融合技术:多传感器数据融合的完整实战指南
  • 让API开口说话,Swagger如何把枯燥代码变成“活文档”
  • UniversalPauseButton终极指南:解锁Windows系统万能暂停神器
  • 最新Linux Nmap命令典型用法全揭秘:网络扫描与安全利器,(非常详细)零基础入门到精通,收藏这篇就够了
  • 低代码开发革命:JeeLowCode如何让编程变简单?
  • hal_uart_transmit与RS485总线集成的项目应用详解