当前位置：首页 > news >正文

【信息科学与工程学】计算机科学与自动化/控制——第九十二篇自动化控制01

news 2026/6/10 20:22:00

自动化控制（续）

一、强化学习控制

类别	模型名称	核心方程	变量/参数说明	特征/性质
策略梯度	REINFORCE算法	目标：最大化期望回报`J(θ) = E[∑_{t=0}^∞ γ^t r_t]` 梯度：`∇θ J(θ) = E[∑{t=0}^∞ (∑{k=t}^∞ γ^k r_k) ∇θ log π_θ(a_t	s_t)]`<br>用蒙特卡洛采样估计梯度，更新`θ ← θ + α ∇_θ J(θ)`	基于整条轨迹的回报，方差大可加基线减少方差：`(∑_{k=t}^∞ γ^k r_k - b(s_t))` b(s_t)是基线，如值函数估计
优势执行器-评论家(A2C)	用优势函数A(s,a)=Q(s,a)-V(s)代替TD误差更新

http://www.jsqmd.com/news/987798/

相关文章：

2026东莞GEO优化公司实力排名！实测技术、案例、效果综合对比 - 新闻快传

2026防爆型气体采样探头厂家排行榜：工业安全监测核心部件选购攻略 - 品研笔录

2026年必备收藏：解决AIGC烦恼的免费实用网站

2026 纺织服饰配套优选：复合型高周波热转印标定制厂家严选 - 变量人生001

N_m3u8DL-RE终极指南：3步破解流媒体下载难题

5、【AI产品经理概述】行业现状与职业前景

2026年重庆摆闸/人行通道闸/三辊闸/翼闸最新推荐榜单：厂家实力与稳定耐用的选型指南 - 品牌发掘

2026上海高端手表回收：江诗丹顿回收市场行情解析 - 奢侈品回收评测

2026年郑州航空港区公司企业搬迁公司全景分析：深度测评选对团队少走弯路！ - 品研笔录

2026广州楼梯房翻新室内设计公司排行实测 - 互联网科技品牌测评

2026年｜如何快速去除论文AI痕迹？10款智能工具高效降低AI率

前后端模块化分离实战：从零搭建用户列表展示（HTML+CSS+JS + json-server）

【干货】DeepSeek / 豆包数学公式完美转 Word 攻略！告别乱码，效率翻倍！AI 导出鸭一键快速转换公式

从Keil到VScode的一站式服务(stm32和GD32)

VXGI未来发展方向：基于体素的全局光照技术路线图展望

包包回收行业避坑总结，合肥 2026 连锁商铺诚信经营 - 奢侈品回收评测

2026上海落户代办机构深度评测与避坑指南 - 新闻快传

C++：初始化列表

【单智能体】AI健康与健身规划师 - 案例讲解（附完整源码）

2026年吹膜机厂家推荐榜单：PE吹膜机/降解袋吹膜机/快递袋/背心袋/ABA共挤/全自动/小型/多层共挤吹膜机品牌实力精选 - 品牌发掘

2026年上海注册公司代理记账哪家好？五大品牌深度测评与对比 - 新闻快传

2026年展柜厂家推荐榜单：内衣展柜/酒柜/鞋柜/眼镜柜/珠宝展柜，专业定制与空间美学深度解析 - 企业推荐官【官方】

宝塔面板如何设置网站伪静态宝塔|Nginx网站部署伪静态配置|静态资源访问配置

2026东莞配眼镜镜片膜层工艺深度解析：防反射、耐磨、疏水三大镀膜技术详解 - 配眼镜新资讯

[AI Agent 01]对话记忆、Agent 循环、Function Calling

2026年怎么降低论文AIGC率？7种高效方法必收藏！

ijkplayer vs ffplay.c：架构优化与工程实践深度解析

2026年郑州机场货物人工搬卸公司权威分享报告：港区搬迁服务优选指南！ - 品研笔录

2026年过滤/过滤器/高效过滤器/初效/中效/化学/活性碳/箱式过滤器厂家推荐榜单，G4/F5/F6/H13/H14高效空气过滤器实力品牌精选 - 品牌发掘

【Redis分布式缓存实战】第22章企业级Redis缓存项目架构复盘