当前位置: 首页 > news >正文

(二) LLM探索能力-2. 决策预训练和增加测试时

提升LLM决策能力

  • 1. 提升LLM决策能力
    • 1.1. 决策预训练Transformer (DPT)
    • 1.2. 增加测试时计算方法

1. 提升LLM决策能力

1.1. 决策预训练Transformer (DPT)

在多样化数据集上训练的大型 Transformer 模型展现出了非凡的上下文学习(in-context learning)能力,能够在未经明确训练的任务上实现出色的少样本(few-shot)表现。

我们研究了 Transformer 在决策问题,即多臂老虎机和马尔可夫决策过程(MDP)的强化学习(RL)中的上下文学习能力。我们引入并研究了决策预训练Transformer(Decision-Pretrained Transformer, DPT)。这是一种监督式预训练方法,通过该方法,Transformer 在给定查询状态以及来自多样化任务的交互上下文数据集时,能够预测出最优动作。

  • 尽管该过程简单,但所生成的模型却具备若干令人惊喜的能力。
  • 经过训练的 Transformer 能够在上下文中解决一系列强化学习问题,并在未经明确训练的情况下,同时展现出在线探索(online exploration)和离线保守(offline conservatism)的特性。
  • 该模型还能泛化至预训练分布之外的新任务,并自动根据未知结构调整其决策策略。

从理论上讲,我们证明了 DPT 可以被视为一种贝叶斯后验采样的有效实现,而贝叶斯后验采样是一种已被证明具备样本高效性的强化学习算法。我们进一步利用这一联系,为 DPT 所产生的上下文算法的遗憾(regret)提供了保证,并证明了它比用于生成预训练数据的算法学习速度更快。这些结果表明,通过这种简单路径,有望赋予 Transformer 强大的上下文决策能力。

1.2. 增加测试时计算方法

直接简单地应用 ICRL 会导致效果极差,并指出其根本原因在于模型在探索(exploration)能力上的根本性缺陷,这会导致模型迅速退化。

方法:针对这一缺陷,我们通过增加测试时计算量(test-time compute)以及基于计算约束的近似方法,提出了来解决该问题的算法。

通过若干具有挑战性的分类任务,我们从实证角度证明了我们的 ICRL 算法能够仅从奖励中实现有效的学习,并对该能力的特性及我们所提方法进行了分析。总的来说,我们的研究结果揭示了大型语言模型中蕴含的卓越的上下文强化学习能力。

http://www.jsqmd.com/news/862872/

相关文章:

  • CANN-Ascend-C流水线编程-昇腾NPU上Cube和Vector怎么协作
  • 2026最新诚信优选 汉中市南郑区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 2026最新测评:4款海外降英文文本AIGC工具实测
  • Codeforces Round 1098 (Div. 2)
  • 记录人生第一个Linux内核Patch被采纳的经历
  • 2026最新诚信优选 贵阳市白云区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 【tomcat部署前台war包报错】
  • 网安从业者必学 100 个核心知识点,自查进阶必备
  • HOW - AI 时代 Figma 出码提效
  • 2026最新诚信优选 合肥市包河区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 2026公考机构推荐:作为程序员,我建了个SQL查询帮你对比8家机构的真实数据
  • Linux 的 wc 命令
  • 2026最新诚信优选 贵阳市观山湖区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • ceph的块存储如何骗过服务器,让服务器把它当做真实的硬盘
  • 2026 渗透测试行业全景解析|机遇、挑战与未来趋势
  • 2026最新诚信优选 合肥市庐阳区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 2026最新诚信优选 广州市海珠区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • GP210:PWM 转 0/4-20mA,MCU 直接驱动工业电流输出
  • 本地 AI 编码助手从 0 配起来:先选模型,再接 Ollama、VS Code、Claude Code 和 Codex
  • 零基础跨行月入 10k|比起天赋,更重要的是破局思维
  • 2026最新诚信优选 合肥市蜀山区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 2026最新诚信优选 贵阳市花溪区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 2026最新诚信优选 广州市花都区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 一文搞懂达梦数据库全产品体系:DM8、DataWatch、DSC、DPC、DMHS、DEM、DTS
  • 手写一个mini版Spring:如何让容器能注册和获取单例 Bean
  • 2026最新诚信优选 合肥市瑶海区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 2026最新诚信优选 贵阳市南明区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 2026年期货期权程序化:主流工具品种覆盖与权限边界观察
  • 2026最新诚信优选 广州市黄埔区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收
  • 2026最新诚信优选 福州市鼓楼区黄金回收白银回收铂金回收彩金回收门店TOP5排行榜+联系方式推荐_转自TXT - 盛世金银回收