当前位置: 首页 > news >正文

机器人如何快速适应新任务:元Q学习算法解析

强化学习(RL)是一种AI智能体与环境交互并根据交互过程中获得的奖励学习策略的技术。RL的进展通过在Atari等游戏上达到人类水平的表现得到了戏剧性展示。这一进展的关键是使用游戏模拟器生成大量数据。然而,将这一进展转化为现实世界的应用,例如装配线机器人或帮助老年人居家生活的机器人,存在两大障碍。首先,机器人复杂且脆弱;采取随机动作进行学习可能会损坏机器人或其周围环境。其次,机器人运行的环境通常与其训练环境不同。例如,一辆自动驾驶汽车可能必须在与其训练地点不同的城市区域工作。我们如何才能构建能够应对新场景的学习机器?

在一篇将在国际学习表征会议上发表的论文中,我们描述了一种名为MQL(元Q学习)的新型强化学习算法,它使AI智能体能够快速适应熟悉任务的新变体。

学习如何学习

与其他的“元学习”算法一样,在MQL中,智能体在大量相关任务(例如,如何拾取不同形状的物体)上进行训练,然后测试其学习这些任务新变体的能力。

MQL有两个关键区别。第一个区别在于,在训练期间,智能体学会计算针对每个任务的特定上下文变量。这使其能够为不同任务学习不同的模型:例如,拾取咖啡杯与拾取足球有很大不同。

第二个区别在于,在测试期间,MQL使用一种称为倾向性估计的统计技术,在其训练数据中搜索与正在学习的新任务交互相似的过往交互。这使得MQL能够以最少的交互适应新任务。

以上方的机器人为例,它希望学习拾取物体。在RL框架中,机器人会尝试拾取物体;每次成功拾取一个物体时它会获得奖励,如果掉落则会受到惩罚。经过反复试验,机器人学会了一种策略,使其能够拾取训练集中的所有物体。然而,如果该策略包含针对不同物体的不同交互模型,它的表现可能会更好。

这是MQL背后的第一个关键思想:机器人学习一个能够区分马克杯模型和足球模型的上下文。MQL使用门控循环单元(GRU)神经网络创建任务的表征,整个系统都以该表征为条件。

重用数据

上下文有助于系统预测处理新任务(例如,拾取一瓶水)的模型。然而,调整该模型仍然需要大量的训练样本。这就引入了MQL的第二个关键组成部分:其倾向性估计的使用。

倾向性分数表示给定样本来自两个分布中任意一个的几率。MQL使用倾向性估计来确定训练数据中哪些部分与测试任务数据接近:例如,拾取瓶子比拾取足球更接近拾取马克杯。然后,模型可以从相关的训练数据中采样,从而补充来自新任务的数据,以便更有效地进行适应。

我们在2019年7月的不确定性人工智能会议上发表的“P3O:策略上策略下策略优化”中也使用了倾向性估计。该技术同样有助于减少训练强化学习算法所需的样本数量。

随着AI系统处理越来越大的应用集,可用于训练的数据量开始显得不足。像MQL这样的技术是一种利用现有数据引导新任务学习的方法,可以显著减少训练AI系统的数据需求。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.jsqmd.com/news/82396/

相关文章:

  • [Windows] Wise Disk Cleaner 专业版(深度系统清理优化工具)
  • 安捷伦E4440A E4447A E4448A E4443A频谱分析仪
  • 如何通过AI网关技术实践实现大模型稳定调用的华丽转身
  • 训练成本直降97%:快手KwaiCoder-23B-A4B-v1重构代码大模型经济学
  • 小户型厨房适合装集成灶吗?2025年十大优秀集成灶品牌推荐 - 匠子网络
  • RPALite:Python自动化办公的终极解决方案
  • VBA-Web:让Excel和Office轻松连接Web服务的利器
  • 2025全屋定制MES系统TOP5权威推荐:看哪家实力强? - mypinpai
  • TileLang与OpenAI Triton技术选型指南:开发效率与性能极限的权衡
  • FunASR完整使用指南:如何快速搭建高精度语音识别系统
  • React Native Share终极指南:快速实现跨平台分享功能
  • 2025桥梁护栏厂家排名权威推荐:甄选高性价比企业助力基建品 - myqiye
  • QuickJS嵌入式传感器数据处理引擎完整实战教程
  • C语言编程学习指南:从零基础到实战应用
  • AI Agent实战指南:从零到一快速搭建智能应用
  • 赋值运算符、关系运算符、逻辑运算符和三元运算符
  • SoapUI:API测试的终极解决方案,让接口测试变得简单高效
  • 2025华东开式冷却塔定制生产TOP5权威推荐:甄选实力厂家 - 工业品牌热点
  • 终极指南:GPT-2 Large本地部署实战全解析
  • 终极企业网站模板:Modern Business一站式解决方案
  • RPCS3模拟器游戏汉化完整教程:从零到精通的终极指南
  • Proxmox VE Helper-Scripts 离线部署完整指南:新手也能轻松掌握的5大关键步骤
  • 5分钟高效搞定AI视频创作:自动化工具全流程深度解析
  • Mid-360 激光雷达轻量化改造在无人机测绘中的应用前景
  • OrcaSlicer安装配置完全指南:从入门到精通3D打印切片
  • Data Formulator零代码可视化终极指南:三分钟快速上手指南
  • 终极RS485/232串口调试工具完整指南
  • 大模型架构革命:从参数竞赛到效率优先的新范式
  • 37、BusyBox使用与系统设计指南
  • 远程异步面试(Take-home Test)的必胜策略