2025_NIPS_Large Language Models can Implement Policy Iteration
文章总结与翻译
一、主要内容
本文提出一种基于大语言模型(LLM)和上下文学习(in-context learning)的策略迭代方法——上下文策略迭代(ICPI),旨在解决强化学习(RL)中现有大模型应用依赖专家演示或梯度优化的问题。
核心背景
现有大模型在强化学习中的应用存在两大局限:一是依赖专家演示(人工设计或特定任务预训练),不仅耗时且性能难以超越专家;二是依赖梯度方法(全参数微调或适配器训练),牺牲了上下文学习的少样本优势。
方法设计
- 核心思路:以提示词内容而非模型参数作为学习载体,通过与RL环境的试错交互迭代更新提示词,实现策略迭代,无需专家演示和梯度计算。
- 模型角色:将大模型同时作为世界模型(预测未来奖励、终止状态和下一状态)和策略模型(通过轨迹序列提示生成动作),采用基于模型的强化学习路径,利用“思维链”提升少样本性能。
- 关键机制:
- 经验缓冲器(D)存储智能体交互轨迹,用于构建提示词;
- 按特定规则采样缓冲器数据(平衡终端/非终端状态、奖励值等),确保提示词相关性;
- 通过贪婪选择(arg max)最大化Q值估计,驱动策略持续优化。
实验验证
- 任务场景
