(二) LLM探索能力-2. 决策预训练和增加测试时
提升LLM决策能力
- 1. 提升LLM决策能力
- 1.1. 决策预训练Transformer (DPT)
- 1.2. 增加测试时计算方法
1. 提升LLM决策能力
1.1. 决策预训练Transformer (DPT)
在多样化数据集上训练的大型 Transformer 模型展现出了非凡的上下文学习(in-context learning)能力,能够在未经明确训练的任务上实现出色的少样本(few-shot)表现。
我们研究了 Transformer 在决策问题,即多臂老虎机和马尔可夫决策过程(MDP)的强化学习(RL)中的上下文学习能力。我们引入并研究了决策预训练Transformer(Decision-Pretrained Transformer, DPT)。这是一种监督式预训练方法,通过该方法,Transformer 在给定查询状态以及来自多样化任务的交互上下文数据集时,能够预测出最优动作。
- 尽管该过程简单,但所生成的模型却具备若干令人惊喜的能力。
- 经过训练的 Transformer 能够在上下文中解决一系列强化学习问题,并在未经明确训练的情况下,同时展现出在线探索(online exploration)和离线保守(offline conservatism)的特性。
- 该模型还能泛化至预训练分布之外的新任务,并自动根据未知结构调整其决策策略。
从理论上讲,我们证明了 DPT 可以被视为一种贝叶斯后验采样的有效实现,而贝叶斯后验采样是一种已被证明具备样本高效性的强化学习算法。我们进一步利用这一联系,为 DPT 所产生的上下文算法的遗憾(regret)提供了保证,并证明了它比用于生成预训练数据的算法学习速度更快。这些结果表明,通过这种简单路径,有望赋予 Transformer 强大的上下文决策能力。
1.2. 增加测试时计算方法
直接简单地应用 ICRL 会导致效果极差,并指出其根本原因在于模型在探索(exploration)能力上的根本性缺陷,这会导致模型迅速退化。
方法:针对这一缺陷,我们通过增加测试时计算量(test-time compute)以及基于计算约束的近似方法,提出了来解决该问题的算法。
通过若干具有挑战性的分类任务,我们从实证角度证明了我们的 ICRL 算法能够仅从奖励中实现有效的学习,并对该能力的特性及我们所提方法进行了分析。总的来说,我们的研究结果揭示了大型语言模型中蕴含的卓越的上下文强化学习能力。
