当前位置：首页 > news >正文

Bellman方程 - RL强化学习中价值估计的数学根基

news 2026/7/5 3:50:01

TL;DR Too Long; Didn’t Read，太长没仔细看
S status
A action
R reward

下标 a~π：读作 a 服从分布 π
a：action，智能体当前选择的动作
π：Policy（策略），大模型 / 强化学习里就是策略模型，输入状态 s ，输出每个动作 a 的选择概率分布

π 是一个函数 π(a | s) = P(选动作a | 当前状态s)
输入当前环境状态 s，输出所有动作的概率分布，这就是一套完整决策策略：给定任意场景，告诉每种行为该以多大概率执行
早期控制论、马尔可夫决策过程（MDP）文献，统一用小写希腊字母 π 代表策略映射函数，学界约定俗成记号

确定性策略：π 直接输出唯一动作，比如看到红灯一定停车
随机策略（LLM/PPO 使用）：输出概率分布，即 π(a | s)

Actor 是训练后的对话大模型，数学上记为策略 π
核心功能：接收一段上下文，输出词典里每个字（token）的生成概率
用户输入 prompt：今天天气很
词典里候选 token：好、差、冷、热、猫
Actor 模型跑一遍后，输出一组概率：好：70%；冷：20%；热：8%；差：1.8%；猫：0.2%
这一组概率分布，就是策略 π 在当前状态下给出的动作分布

如果是确定性输出（贪心解码）：直接选概率最高的好，固定输出。
但 RL 训练、日常生成对话用随机采样 a~π ：按照上面的概率抽签选下一个 token：70% 抽中好；20% 抽中冷；小概率抽到别的字

随机采样输出文本：完整生成整条回答的流程（逐 token 循环）

输入 prompt：今天天气很
Actor (π) 算出所有 token 概率分布
按概率随机采样 1 个 token，比如抽到好
把今天天气很+好拼接成新上下文，再丢回 Actor
重复步骤 2-4，不断采样下一个字，直到生成结束标记，完整回答就出来了

为什么 RL/PPO 不能直接贪心选最高概率

如果每次固定选概率最高 token，回答会千篇一律，缺乏多样性
强化学习需要多条不同回答样本送入 RM 打分，才能计算奖励、更新模型
公式里的期望 Ea~π，本质就是对「所有可能采样出来的回答」算平均收益，只有随机采样才能模拟这个期望

状态价值贝尔曼方程

γ 国际音标/ˈɡæmə/，中文标准读法伽马

动作价值Q贝尔曼方程

在状态 s 做出动作 a 的长期预期总回报 = 执行 a 拿到的即时奖励，加上 γ 折扣后的「下一状态 s’ 能取到的最优长期回报」，再对所有可能出现的下一状态 s’ 做概率平均 E
最优贝尔曼方程，是 Q-learning 这类强化学习算法的核心，它假设从下一步开始全程都用最棒的策略决策

示例

V 和 Q 的区别

其他补充

总结

贝尔曼方程就是把 “短期收益” 和 “长期未来收益” 绑定在一起，让模型不只看眼前奖励，学会长远最优决策

http://www.jsqmd.com/news/1125819/

相关文章：

LangChain快速入门-03Retrieval(上)

为什么测试这么难写？

HagiCode 是怎么把 13 个 Agent CLI 接到一套系统里的

成都热门的中央空调企业哪家可靠

告别重复劳动！GIMP BIMP批量图像处理插件完全指南

自动售货机运营需要了解哪些政策法规？新手必看~YH

数据血缘追踪与元数据管理平台

NET中的异步编程（四）- IO完成端口以及FileStream.BeginRead

全球邮轮旅行服务市场投资前景分析及发展研究建议报告2026年版

Nano Banana 2 怎么用？14 种宽高比 + 4K 出图完整步骤

国漫视效巅峰最好的国产动画片哪吒魔童

四步部署Dify：构建私有化AI应用开发平台

从文档到AI知识库：工程化SOP与RAG实战指南

Engine-Sim实战：3大技术挑战与精准仿真验证指南

智商平平”学软件

暖通 / 配电 / 动环培训推荐｜传统技工转行机房刚需岗位完整攻略

2025-2026工业纯水机主流品牌资质服务多维对比指南

magnetW：一款高效的跨平台磁力链接聚合搜索工具完全指南

从团购网的漏洞看网站安全性问题

Git凭据助手原理与安全实践：从本地开发到CI/CD的凭证治理

Nginx安全头配置实战：从X-Frame-Options到CSP的完整指南

使用WorkBuddy自动发微博教程

三轴运动跟踪系统设计与IMU传感器应用实践

微信支付V3 微信小程序支付线下正常、线上验签失败回调异常报错 com.wechat.pay.java.core.exception.ValidationException

【2026】3ds Max 2027安装教程超详细图文步骤（附完整安装包）

低压密集型母线槽核心选材标准解析，16 年生产工厂实操经验总结

WP7有约（三）：课堂重点

R语言实现电力系统N-1事故分析与风险图谱生成

创业是一种心态、信念和坚持，是一种生活方式

商品条码查询API实战：免费接口申请到代码集成全攻略