当前位置：首页 > news >正文

人形机器人伤人引安全担忧，Physical Atari 系统为真实世界强化学习提供低成本实验台

news 2026/6/22 2:28:55

强化学习的「真实世界」难题

2026年初，成都一家商场里，人形机器人与老人碰撞致其受伤，猎豹移动傅盛称大模型两三年内难解决安全问题。实验室演示与真实世界差距大，模拟和真实环境差异会让训练策略失灵。同一时期，Keen Technologies联合阿尔伯塔大学和Openmind研究所发布论文，探讨强化学习算法能否在真实世界自主学习。他们打造了Physical Atari系统用于「打Atari游戏」。Atari游戏在AI圈有名，此前算法多在模拟器学习，真实世界是「实时强化学习」，这也是机器人面临的处境。目前机器人领域训练AI有三条路，第三条路虽能避免模拟器与现实差异问题，但需要耐用便宜的机器人，Physical Atari就是答案。

团队简介

团队第一作者是Keen Technologies的Khurram Javed，作者名单中有约翰·卡马克和理查德·萨顿。卡马克是id Software联合创始人，开发多款游戏，推动虚拟现实量产，2022年创立Keen Technologies瞄准通用人工智能。2023年他邀请萨顿加入，两人专注研究真实世界持续学习的智能体，萨顿也是论文作者，Physical Atari体现了他对智能体学习的判断。

用一台「机械手」打游戏，是怎么造出来的

系统有两个核心部件，Atari Devbox是塞进3D打印外壳的树莓派5，接5英寸屏幕，以60帧每秒渲染Atari游戏画面；Robotroller是按真实摇杆的机械手，通过三个伺服电机控制摇杆动作。摄像头拍画面，电脑做决策，Robotroller执行。论文重点讲如何让机械手几周内不坏，解决了螺丝松动、齿轮磨损、摇杆损坏等问题，还加了「高电流反射」机制。奖励信号通过AprilTags视觉标记由摄像头识别，机器人感知世界方式与人类玩游戏无本质区别。整套硬件成本控制在1000美元以内，Robotroller采购零件约400美元，定制部件3D打印耗时约12小时。

真机器人，真打了145个小时游戏

研究者让系统在六款游戏上分别学习五个半小时，重复4到5次实验，累计近145小时无人干预。另一组实验中，智能体在一台Robotroller上学习6小时后，策略在「陌生身体」上表现更差，在Pong游戏中差距明显。让智能体在「陌生身体」上继续学习，策略表现回升。这印证了直接在目标身体上持续学习可修复偏差。系统165毫秒左右的端到端响应延迟在人类反应速度区间内，问题出在策略和身体匹配上。