当前位置：首页 > news >正文

(二) LLM探索能力-2. 决策预训练和增加测试时

news 2026/7/18 3:51:54

提升LLM决策能力

1. 提升LLM决策能力
- 1.1. 决策预训练Transformer （DPT）
- 1.2. 增加测试时计算方法

1. 提升LLM决策能力

1.1. 决策预训练Transformer （DPT）

在多样化数据集上训练的大型 Transformer 模型展现出了非凡的上下文学习（in-context learning）能力，能够在未经明确训练的任务上实现出色的少样本（few-shot）表现。

我们研究了 Transformer 在决策问题，即多臂老虎机和马尔可夫决策过程（MDP）的强化学习（RL）中的上下文学习能力。我们引入并研究了决策预训练Transformer（Decision-Pretrained Transformer, DPT）。这是一种监督式预训练方法，通过该方法，Transformer 在给定查询状态以及来自多样化任务的交互上下文数据集时，能够预测出最优动作。

尽管该过程简单，但所生成的模型却具备若干令人惊喜的能力。
经过训练的 Transformer 能够在上下文中解决一系列强化学习问题，并在未经明确训练的情况下，同时展现出在线探索（online exploration）和离线保守（offline conservatism）的特性。
该模型还能泛化至预训练分布之外的新任务，并自动根据未知结构调整其决策策略。

从理论上讲，我们证明了 DPT 可以被视为一种贝叶斯后验采样的有效实现，而贝叶斯后验采样是一种已被证明具备样本高效性的强化学习算法。我们进一步利用这一联系，为 DPT 所产生的上下文算法的遗憾（regret）提供了保证，并证明了它比用于生成预训练数据的算法学习速度更快。这些结果表明，通过这种简单路径，有望赋予 Transformer 强大的上下文决策能力。