当前位置: 首页 > news >正文

人形机器人伤人引安全担忧,Physical Atari 系统为真实世界强化学习提供低成本实验台

强化学习的「真实世界」难题

2026年初,成都一家商场里,人形机器人与老人碰撞致其受伤,猎豹移动傅盛称大模型两三年内难解决安全问题。实验室演示与真实世界差距大,模拟和真实环境差异会让训练策略失灵。同一时期,Keen Technologies联合阿尔伯塔大学和Openmind研究所发布论文,探讨强化学习算法能否在真实世界自主学习。他们打造了Physical Atari系统用于「打Atari游戏」。Atari游戏在AI圈有名,此前算法多在模拟器学习,真实世界是「实时强化学习」,这也是机器人面临的处境。目前机器人领域训练AI有三条路,第三条路虽能避免模拟器与现实差异问题,但需要耐用便宜的机器人,Physical Atari就是答案。

团队简介

团队第一作者是Keen Technologies的Khurram Javed,作者名单中有约翰·卡马克和理查德·萨顿。卡马克是id Software联合创始人,开发多款游戏,推动虚拟现实量产,2022年创立Keen Technologies瞄准通用人工智能。2023年他邀请萨顿加入,两人专注研究真实世界持续学习的智能体,萨顿也是论文作者,Physical Atari体现了他对智能体学习的判断。

用一台「机械手」打游戏,是怎么造出来的

系统有两个核心部件,Atari Devbox是塞进3D打印外壳的树莓派5,接5英寸屏幕,以60帧每秒渲染Atari游戏画面;Robotroller是按真实摇杆的机械手,通过三个伺服电机控制摇杆动作。摄像头拍画面,电脑做决策,Robotroller执行。论文重点讲如何让机械手几周内不坏,解决了螺丝松动、齿轮磨损、摇杆损坏等问题,还加了「高电流反射」机制。奖励信号通过AprilTags视觉标记由摄像头识别,机器人感知世界方式与人类玩游戏无本质区别。整套硬件成本控制在1000美元以内,Robotroller采购零件约400美元,定制部件3D打印耗时约12小时。

真机器人,真打了145个小时游戏

研究者让系统在六款游戏上分别学习五个半小时,重复4到5次实验,累计近145小时无人干预。另一组实验中,智能体在一台Robotroller上学习6小时后,策略在「陌生身体」上表现更差,在Pong游戏中差距明显。让智能体在「陌生身体」上继续学习,策略表现回升。这印证了直接在目标身体上持续学习可修复偏差。系统165毫秒左右的端到端响应延迟在人类反应速度区间内,问题出在策略和身体匹配上。

结语

Physical Atari不打算让机器人学会走路或叠衣服,它解决了验证机器人能否在现实世界自主学习的基础问题,是便宜耐用、可复刻的实验台,在真实世界连续运转145小时且无人干预,是检验强化学习算法可靠性的朴素标准。

http://www.jsqmd.com/news/1058555/

相关文章:

  • Windows 11硬件限制终极破解指南:让你的老旧电脑也能轻松升级
  • TableSeq:基于图像到序列的端到端表格识别框架实战
  • 2026年职称机构模拟答辩推荐榜:从答辩流程到备考策略逐项拆解 - 3158GEO
  • 自归约算法与聚类优化:破解大规模位置匹配性能瓶颈
  • 2026年职称机构继续教育学时要求 推荐机构:从学时底线到机构筛选逐条拆解 - 3158GEO
  • 专业级Photoshop图层批量导出解决方案:告别低效,实现自动化工作流
  • 大语言模型如何通过分层推理与技巧识别辅助数学定理证明
  • Ubuntu下用Certbot standalone模式获取Let‘s Encrypt证书
  • python电商数据分析及可视化1(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_可以扫码
  • 你的Android设备真的安全吗?让Google官方API告诉你真相
  • AI工作流工程化:4GB显存Windows部署可观察、可回滚的LLM系统
  • CMLM-ZhongJing:首个中医大语言模型如何用AI传承千年智慧?
  • 2026年现阶段,探寻成都不错的交通设施源头厂家联系方式 - 品牌鉴赏官2026
  • 2026年了解职称评选全过程,机构推荐榜,从识别骗局到正规路径一条条拆。 - 3158GEO
  • ai穿衣服模特图轻松搞定,实测四大工具体验与效果
  • CI/CD 流水线自动化与 GitOps 实践:让部署从手工活变成流水线
  • BlockRaFT:基于Raft优化的高性能区块链共识框架设计与实践
  • AI 驱动的 Serverless 架构与自动化发布:从代码到云端的零摩擦之路
  • AudioLLM语音翻译技术解析:架构、评估与实战对比
  • 大语言模型数学证明:分层推理与核心技巧识别实战指南
  • 自编码器几何正则化:构建规整潜在空间以提升流形学习与SDE建模精度
  • 2026年近期秦皇岛公关活动优质公司联系指南与选择策略 - 品牌鉴赏官2026
  • 3分钟快速上手:免费高效的Mem Reduct内存监控工具终极指南
  • 2026年职称评审官方机构与代办区别、机构推荐,搞清两条路再选人 - 3158GEO
  • 量子纠错码优化:线性规划与半正定规划的应用
  • 半导体设备年会优选指南,盘点业内大咖精选半导体设备展会 - 品牌深度评测
  • 飞思卡尔2014年CSR报告:半导体企业如何将责任融入战略与运营
  • Solidity 智能合约编写与安全审计方法:从编码规范到防御体系
  • 多灾种易发性建模:融合GeoDetector与机器学习,破解空间异质性难题
  • Ubuntu 20.04下MongoDB远程访问三重安全配置指南