当前位置: 首页 > news >正文

大模型---MCTS/LATS

目录

1.MCTS

(1)Selection

(2)Expansion

(3)Simulation

(4)Backpropagation

2.LATS(Language Agent Tree Search)

(1)Selection

(2)Expansion

(3)Evaluation

(4)Simulation

(5)Backpropagation

(6)Reflection

(7)与ReAct,ToT,Reflexion的区别

(8)LATS的缺点

3.MCTS与LATS的关系


1.MCTS

Monte Carlo Tree Search(MCTS)是一种启发式树搜索方法,核心思想是在搜索树上反复做采样,用有限预算把更多计算分配给“看起来更有希望”的分支。

MCTS 的一个迭代通常包含四步:Selection、Expansion、Simulation、Backpropagation。

其核心流程是从根节点按树策略往下选,到某个可扩展节点后扩一个子节点,再从那里做默认策略下的 rollout(不展开后续所有可能,而是用一次“试跑”来估计这个新节点的好坏)。最后把结果沿路径回传更新统计量。

(1)Selection

这一阶段从根节点开始,沿着当前树一直往下走,直到遇到:一个还没完全展开的节点,或者一个终止节点。因为 MCTS 的计算预算有限,不可能把所有分支都均匀展开。所以Selection会在现在这棵部分展开的树里,选择哪条路径最值得继续深入?

Selection中常用的策略是UCT,它的思想来自多臂老虎机里的UCB,把UCB的“探索-利用(explore and exploit)平衡”搬到了树搜索里(这部分会另讲)。

在树上选子节点时,UCT 不会只看“当前平均收益最高的是谁”,而是同时看:利用(exploit),哪个节点历史表现更好;探索(explore),哪个节点还没被充分尝试。

(2)Expansion

当Selection走到一个可扩展节点后,MCTS不会立刻停下,而是会从这个节点挑一个尚未尝试过的动作,把对应的新子节点加到树里。图里底部那个粗黑边框的新圆圈,就是这一步刚长出来的新节点。MCTS的策略不是BFS那种“一层层铺满”,而是渐进式增长,即,先少量扩展,边试边看结果,再把预算集中到更有前途的地方。

(3)Simulation

因为刚扩出的新节点,还没有多少统计信息。如果只看它当前位置,可能不知道它到底值不值得继续发展。于是就从这个点往下按默认策略尝试,看看最终结果怎样,把这个结果当作对当前节点质量的近似评估。

Simulation会从刚刚扩展出来的新节点出发,算法会继续往后尝试下去,直到到达终局,或者到达某个预设停止条件。但关键在于:这时候往后的过程通常不再显式加入搜索树,而是按某个default policy做一次rollout/playout。图里的虚线箭头就表示后面是在树外继续模拟,而不是把所有后继节点都正式画进树里。图中的三角形就表示这次rollout最后到了某个终止结果。

default policy就是rollout时用的“默认走法”。最简单的做法是随机选动作,但文献也强调,默认策略不一定非得随机,可以加入启发式或领域知识。MCTS的强弱,很大程度上取决于:① tree policy怎么选树内路径;② default policy怎么做树外模拟。

(4)Backpropagation

当Simulation得到终局结果后,MCTS会把这次结果沿着刚才那条路径往回传,一直传到根节点。也就是更新从根到扩展节点这一整条路径上的统计量。回传时通常会更新两个值:① 访问次数:这个节点被走到过多少次;② 价值统计:这个节点历史上平均结果怎么样。如果这次 rollout 结果很好,那么这条路径上的节点价值就会上升;如果结果很差,那么它们的统计值就会下降或变得不占优。

就这样,经过很多轮以后,树就会越来越偏向那些高回报且经过足够验证的分支,这就是 MCTS 能在有限预算下把计算集中到“有希望区域”的原因。即“树搜索的精确性+随机采样的通用性”的结合。

注意:Selection用的是tree policy,其只负责树里面怎么走。也就是在已经存在的节点之间,怎么选下一步。UCT属于tree policy;

Simulation用的是

http://www.jsqmd.com/news/653777/

相关文章:

  • 保姆级避坑指南:在Ubuntu 20.04上为ESP32搭建OpenHarmony 4.1开发环境(含一键依赖脚本)
  • MTK平台屏幕与TP驱动调试实战:LK、Kernel、DTS配置全解析
  • 智慧城市井盖智能巡检 智能城市道路巡检系统 井盖缺陷异常等识别 井盖缺失破损识别数据集 改进的yolo算法数据集第10311期
  • 软件散点图管理化的相关性分析
  • LayerDivider:3分钟将单张插画转换为分层PSD的智能解决方案
  • 收藏!小白程序员必看:从ReAct到Skills基座,硬核梳理Agent工程全貌
  • 从Codota到TabNine:AI代码补全插件在Eclipse与IDEA中的实战演进
  • Hypermesh二次开发实战:Tcl命令与*createmark高效应用
  • LDO vs DCDC:5个真实项目案例,告诉你什么时候该用谁(附选型清单)
  • 别再只玩ChatGPT了!手把手教你用LLaVA和MiniGPT-4搭建自己的多模态AI助手(附避坑指南)
  • 智慧城市之盲道图像分割数据集地铁盲道分割图像数据集智慧盲人路线指引数据集 yolov13 yolo26图像数据集第10258期 (1)
  • 避坑指南:华为设备GRE over IPSec配置中,ACL规则写错导致隧道不通的排查全过程
  • 优质白牦牛源头厂家2026推荐,口碑之选,目前有实力的白牦牛推荐分析技术领航,品质之选 - 品牌推荐师
  • 终极指南:如何用DriverStore Explorer轻松管理Windows驱动程序
  • TotalSegmentator:医学影像智能分割的开源解决方案与架构深度解析
  • STM32 SPI从机DMA避坑指南:没有IDLE中断,如何用定时器实现可靠的不定长数据接收?
  • Qwen3-Reranker-0.6B镜像免配置教程:开箱即用的语义匹配Web服务
  • 不只是最小系统:给STM32F429配上‘全家桶’(SDRAM、LCD、网络)的硬件设计避坑指南
  • 深入探索AMD Ryzen处理器:SMUDebugTool架构解析与实战应用
  • 你的PyTorch多卡训练效率低?可能是DataParallel的‘锅’!聊聊负载均衡那些事儿
  • 2026奇点大会AI客服机器人技术白皮书深度拆解(含未公开Benchmark对比:RAG延迟↓63%,情感误判率↓41.7%)
  • 大模型---Reflexion
  • 保姆级教程:手把手教你为小智AI Pro更换专属唤醒词和背景图(ESP32-S3实战)
  • EPLAN电气设计新手必看:结构标识符设置避坑指南(附实战截图)
  • 终极中文文案排版指北:从空格到标点的完整教程
  • 你的地图‘漂移’了吗?深入聊聊coord-convert库转换WGS84/GCJ-02时的误差与应对
  • FreeRTOS二值信号量实战:如何用STM32串口中断实现任务同步(附完整代码)
  • TSMaster HIL仿真避坑指南:如何正确监控与可视化车辆轮速、压力等关键信号?
  • Equalizer APO:解锁Windows音频系统级调校的三大应用场景
  • 从零构建中文NL2SQL数据集:基于GRPO强化学习微调Qwen3-8B,解锁300行复杂SQL生成