当前位置: 首页 > news >正文

TD-Learning 时序差分学习 和 Q-Learning 最优动作价值学习

TD-Learning - 时序差分学习


用来学习状态价值 V(s),对应前文不带 max 的贝尔曼期望方程

核心特点

一步更新,不用等整段轨迹结束
传统蒙特卡洛 MCTS 必须等完整对话 / 游戏结束才能算总奖励;TD 走一步、拿一个即时奖励R,立刻用下一个状态的预估价值 V(s’) 更新当前V(s),效率极高

完全跟着当前策略 π 走
采样动作、计算期望E都服从 Actor 策略,只做策略评估,不主动找最优动作

和 PPO 强绑定
PPO 里的 Critic 网络,训练用的损失就是 TD 损失,Critic 本质就是 TD 学习拟合出来的 V(s)

只做策略评估,不主动找最优动作

选动作严格按照 a ~ π :Actor 输出什么概率,就按这个概率随机采样 token,不会强行替换成高分 token
计算价值 V(s) 的目的:客观打分,告诉你「用现在这个 Actor 生成回答,平均能拿到多少奖励」
全程没有 max 操作:不会去主动搜下一状态里收益最高的动作

LLM 例子
现有 Actor(策略 π)回答问题,70% 概率输出 “好”、30% 输出 “难”

TD 只做一件事:
分别算出两种回答的总分,按 7:3 加权平均,得到当前提问的平均收益 V(s)
它不会主动把 30% 的 “难” 删掉、强制换成 “好”,只是如实评估现有模型的平均水平

Q-Learning


用来学习动作价值 Q(s, a),对应前文带 max 的贝尔曼最优方程
注意:前文是期望方程,这里的是最优方程

哪怕当前策略大概率会选低分 token,更新时也直接假设:下一步会选全场收益最高的动作
相当于直接无视现有模型,强行朝着满分答案学习

同样 70% 出 “好”、30% 出 “难”
Q-learning 计算时直接忽略 30% 的 “难”,只取下一状态里收益最高的 token 来更新,相当于在教模型:别再输出低分内容,直接选最优答案

对比


只做策略评估(TD):如实评价现在这个模型表现如何,不干涉它的生成选择,不强行优化
主动找最优动作(Q-learning):跳过当前策略的随机选择,直接拿最高分动作当目标,倒逼模型变更好

TD 不是先精确算出完美的 V(s’) 再更新,而是把两段不同上下文 s、s’ 先后输入同一个 Critic 网络,两次前向推理得到两个估值V(s) 和 V(s’)

单步TD更新流程

Actor(策略网络 π):不输出价值,只负责生成 token、采样回答,属于策略网络,不是价值网络
Critic(价值网络 V):唯一的价值网络,TD 学习只训练它,用来预估长期回报

Actor 的 采样回答
Actor 大模型拿到 prompt 上下文后,会给词汇表里每一个候选 token(字 / 词)输出一个 0~1 之间概率,所有 token 概率加起来 = 1,这就是概率分布。采样 = 不固定选概率最高的字,而是按概率大小随机抽签选下一个字。
举个例子:输入上下文:夏天适合去。Actor 输出概率分布:海边:0.6(60%);山里:0.3(30%);超市:0.1(10%)
贪心输出(不采样):永远只选概率最高的海边,回答永远一模一样,没有多样性
随机采样 a ~ π:像抽奖一样,60% 概率抽海边,30% 抽山里,10% 抽超市

训练流程里 Actor 和 Critic 二者同步更新,但一个是策略、一个是价值,不是两个价值网络

自举(bootstrap)

自举(bootstrap)是同一个网络用自身下一时刻的预测做目标

全程只用同一个 Critic 网络,只是输入两段不同上下文:
输入当前上下文 s → 网络输出 V(s)(本次要修正的预测值)
输入下一步新上下文 s’ → 同一个网络前向推理,临时算出 V(s’)(用来造训练目标)

训练目标

希望神经网络最终预测出的标准答案 / 理想数值
网络现在的预测值和这个目标值有差距,就用反向传播更新网络参数,缩小差距

http://www.jsqmd.com/news/1125391/

相关文章:

  • 基于单片机人脸识别电子密码锁智能门禁指纹识别语音提醒防盗成品12(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_
  • Linux gpg命令超全详解|文件加密解密、密钥管理、签名验证实战教程
  • 【监控与可观测性】05-OpenTelemetry入门:统一链路追踪落地方案
  • Windows部署OpenClaw AI智能体框架:从环境配置到实战应用全指南
  • WinForm/ASP.NET上使用实践
  • GORM Session 最佳实践:灵活控制数据库会话的六种策略
  • Cube v0.5.0发布:自动暂停 · ARM 支持· 一键集群部署,把沙箱送进生产
  • 【机器人 / 强化学习】SERL:让真机强化学习从“难用”走向“可复现”的强化学习框架 ----(4)算法篇(DrQ vs VICE)
  • Topit:macOS窗口置顶技术的深度解析与实战指南
  • Makerbase ODrive v3.6 霍尔电机位置环配置:3个关键参数调优与电机抖动解决
  • 《HarmonyOS技术精讲-Core Speech Kit(基础语音服务)》第2篇:语音识别核心功能——流式与非流式实现
  • 可穿戴设备数据的 AI 分析:从 PPG 信号解码到运动负荷的实时建模
  • HelloAgents:RAG——让 Agent 学会检索知识
  • 记录arm64内核调试环境搭建qemu_arm64_linux_01
  • 金融职业发展:应用统计 vs 大数据管理,如何选择?
  • Tokio 背压设计:通道满了,比内存爆了更早告诉你问题
  • 爬虫转大模型:信息采集能力如何变成 AI,用真实案例讲清边界
  • 在浏览器里逛唐长安城,这个开源项目让我直接穿越了!
  • Go 推理客户端:重试要懂模型调用的副作用
  • WebShell溯源实战:从CVI-360001告警到漏洞根因挖掘
  • 故障诊断 Agent 权限:能查很多,不代表能改很多
  • 基于STM32单片机智能手环心率血氧体温GPS定位跌倒计步器系统设计12(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_
  • 别被名字骗了:普通人如何用 Codex 打造专属的“AI 超级员工”
  • camelAI 是一款主打“随心构建”理念的编程工具
  • DIO四川资阳生产基地量产纪念仪式圆满举行 | 全球“双核制造体系”与口腔AI实验室同步启航
  • 《用AI做公众号流量主》第13课:为什么 99% 的人用 AI 生产的都是“电子垃圾”?
  • Java毕设项目:乡村物资救助与公益捐赠服务系统的设计与实现 智慧助农公益帮扶综合管理平台 (源码+文档,讲解、调试运行,定制等)
  • 手中有机, 心中不慌 (5 只 二手 Android 手机)
  • 短剧AI翻译隐性收费横评:5款平台费用明细对比避坑
  • 基于51/STM32单片机点滴速度液体检测 智能输液蓝牙监控系统 套件12(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_