人形机器人伤人引安全担忧,Physical Atari 系统为真实世界强化学习提供低成本实验台
强化学习的「真实世界」难题
2026年初,成都一家商场里,人形机器人与老人碰撞致其受伤,猎豹移动傅盛称大模型两三年内难解决安全问题。实验室演示与真实世界差距大,模拟和真实环境差异会让训练策略失灵。同一时期,Keen Technologies联合阿尔伯塔大学和Openmind研究所发布论文,探讨强化学习算法能否在真实世界自主学习。他们打造了Physical Atari系统用于「打Atari游戏」。Atari游戏在AI圈有名,此前算法多在模拟器学习,真实世界是「实时强化学习」,这也是机器人面临的处境。目前机器人领域训练AI有三条路,第三条路虽能避免模拟器与现实差异问题,但需要耐用便宜的机器人,Physical Atari就是答案。
团队简介
团队第一作者是Keen Technologies的Khurram Javed,作者名单中有约翰·卡马克和理查德·萨顿。卡马克是id Software联合创始人,开发多款游戏,推动虚拟现实量产,2022年创立Keen Technologies瞄准通用人工智能。2023年他邀请萨顿加入,两人专注研究真实世界持续学习的智能体,萨顿也是论文作者,Physical Atari体现了他对智能体学习的判断。
用一台「机械手」打游戏,是怎么造出来的
系统有两个核心部件,Atari Devbox是塞进3D打印外壳的树莓派5,接5英寸屏幕,以60帧每秒渲染Atari游戏画面;Robotroller是按真实摇杆的机械手,通过三个伺服电机控制摇杆动作。摄像头拍画面,电脑做决策,Robotroller执行。论文重点讲如何让机械手几周内不坏,解决了螺丝松动、齿轮磨损、摇杆损坏等问题,还加了「高电流反射」机制。奖励信号通过AprilTags视觉标记由摄像头识别,机器人感知世界方式与人类玩游戏无本质区别。整套硬件成本控制在1000美元以内,Robotroller采购零件约400美元,定制部件3D打印耗时约12小时。
真机器人,真打了145个小时游戏
研究者让系统在六款游戏上分别学习五个半小时,重复4到5次实验,累计近145小时无人干预。另一组实验中,智能体在一台Robotroller上学习6小时后,策略在「陌生身体」上表现更差,在Pong游戏中差距明显。让智能体在「陌生身体」上继续学习,策略表现回升。这印证了直接在目标身体上持续学习可修复偏差。系统165毫秒左右的端到端响应延迟在人类反应速度区间内,问题出在策略和身体匹配上。
结语
Physical Atari不打算让机器人学会走路或叠衣服,它解决了验证机器人能否在现实世界自主学习的基础问题,是便宜耐用、可复刻的实验台,在真实世界连续运转145小时且无人干预,是检验强化学习算法可靠性的朴素标准。
