当前位置: 首页 > news >正文

【中小学AI人工智能教育】强化学习范例——平衡杆

Ai创想实验室是专门为中小学AI教育开发的教学平台,包含了值计算、图像分类、音频分类、文本分类、数值回归、图像回归、图像分类+回归、平衡杆、手写数字生成、文本生成等中小学人工智能学习类项目。无需编程基础、无需添加硬件、无需购买算力、无隐私担忧、无需师资培训即可进行教学实践。

和之前介绍的监督学习一样,尽可能用更广为人知容易找到大量参考资料的入门范例来完成这一类的首个例子,而平衡杆就是很好的选择。作为强化学习范畴的范例,其流程与监督学习有一定区别。

一、模型构建

在Ai创想实验室中,我们只需要构建专家示范操作模型。平衡杆项目很简单,其输入有4个维度(位置、速度、杆子角度、杆子角速度),而输出仅有2个维度(左或右)。通过一些全连接层,即可学会这种映射关系:

二、强化学习

将上述模型导出,并导入到强化学习训练器中,设置超参数即可进行训练。在训练其中,采用Q值网络、经验池来完成训练,为了在低配硬件上可以流畅运行除了模型训练以外的较多计算,在界面上可以配置界面更新频率和画布渲染频率,如果默认设置下有卡顿你可以更改这些设置使之更流畅:

经过一些轮次训练,平衡杆直立的步数会呈现上升趋势,大约200轮左右能首次达到500步,这大约需要十来分钟时间。

三、专家示范操作

通常来说,模型可以通过直接强化学习的方式进行学习;但是,这样的完全靠模型进行探索来学习的过程通常比较慢。如果我们用一些数据先训练一下模型,训练进程会有所加快。在数据采集器中,我们可以进行“示教”操作——根据小车的状态输入左或右(键盘方向键←或→)。这样我们就采集了一些数据,但实际操作时,平衡车的物理模拟帧率很高,人类的反应速度很难跟上,所以在数据采集界面上可以设置游戏速度:

当我们采集足够的数据(这通常指维持平衡和小车不超出左右位置),就可以把数据导出。

四、监督学习训练

当我们获得数据之后,就可以像之前的监督学习一样,使用这些数据对模型进行训练。如果你采集了足够的数据,训练结束之后模型可以很快就能达到500步。

当训练完成之后,可以把已训练模型导出,而后导入到强化学习训练器中——就像直接强化学习一样训练模型。这时,我们可以观察到模型会更快的学会如何保持平衡杆直立。

AI创想实验室中,我们无需编程基础,不用学习框架,不用配置环境,无需购买费用高昂的显卡,更不用为云端算力付费,使用当前已有的各种硬件:仅有核显的个人、办公、机房电脑,希沃白板等都能达到理想的教学效果。操作简单但AI核心知识样样俱全,无需师资培训就可以进行教学且能取得理想的教学效果。如果加入试点或合作方那么只需要一台局域网服务器(无需显卡、服务器不用供算力)即可一次投入永久使用全部项目和功能,通过后台管理一分钟即可创建一个本地化、校本化的项目实例。

http://www.jsqmd.com/news/1106148/

相关文章:

  • Claude 桌面版(macOS / Windows)工具分享
  • DFT:IST和ROM BIST能不能同时跑?特别是在mission mode下
  • 多模态AI系统性能优化:从3.2秒到1.5秒的实战经验
  • 新160个CrackMe042-crackme、043-riijj_cm_20041121、044-tsrh-crackme逆向分析
  • 前端应用离线暂停更新策略:构建稳定可靠的渐进式部署方案
  • 第9章 MCP 协议与 Skills 工具生态《AI Agent 开发平台资深技术专家 AI Agent 应用架构师 CTO 面试题库详解》
  • 在C++基础上理解CSharp-6
  • AI 编译优化入门:算子融合不是为了少写几行代码
  • utpasswd命令详解:10个实用参数让密码管理更高效
  • SolidWorks_装配体设计5_自上而下设计
  • AI Agent 编排实战:别让多个智能体互相抢麦
  • 特种行业加固计算机配套的固态硬盘,兼容性问题通常出在哪里?
  • Kiran Biometrics:开源生物识别认证系统的完整指南
  • Java反射基础
  • Frida内存操作避坑指南:从原理到实战的逆向分析核心技能
  • CNN-LSTM-AdaBoost时间序列预测实战指南
  • 大模型推理加速年度趋势:从量化到稀疏化的技术跃迁路径
  • ActiveReports for .NET 20.0J SP1-AIレポートウィザードがさらに進化
  • 大模型推理加速核心:KV Cache 复用机制与内存布局优化
  • 开启 OpenFeign 调用日志打印
  • Nuke Survival Toolkit:150个Nuke插件的终极指南与完整解决方案
  • CAD二次开发中的公差控制
  • Electron + Rust:吉他谱播放器性能优化实战
  • 抖音音频下载终极指南:5分钟掌握免费开源工具
  • 无限集(深圳)8年汽车电子深耕,12+整车厂定点
  • c++复习自存
  • 记录一个标记所有new出来的内存的地址加上TAG
  • AI 辅助:Product Hunt 发布复盘:上线当天之前,准备已经开始
  • Cursor Free VIP破解工具:3分钟解除AI编程助手试用限制的终极指南
  • 西安共享茶室平台开发?时段预约锁房技术源码讲解