当前位置: 首页 > news >正文

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

VESPO 论文核心总结与关键部分翻译

一、文章主要内容

该论文聚焦大型语言模型(LLMs)强化学习(RL)训练中的稳定性问题,针对离线训练(off-policy)场景下的核心挑战提出解决方案。

核心问题

LLM的RL训练面临三大稳定性威胁:

  1. 策略陈旧(Policy Staleness):批量数据拆分导致后续迷你批次使用过时策略样本;
  2. 异步训练影响:训练与采样过程解耦放大分布偏移;
  3. 训练-推理不匹配:不同引擎实现差异(尤其MoE模型的路由决策)引发偏差。
    现有方法(如token级裁剪、序列长度归一化)缺乏统一理论基础,存在方差过高或偏差引入等问题。

核心方案:VESPO

提出变分序列级软策略优化(Variational Sequence-level Soft Policy Optimization, VESPO),通过变分框架将方差 reduction 融入提议分布设计,直接对序列级重要性权重进行重塑,无需长度归一化,实现无偏且稳定的训练。

实验验证

在数学推理基准(AIME24/25、AMC23、MATH500)上验证,覆盖稠密模型(Llama-3.2-3B、Qwen3-8B)和MoE模型(Qwen3-30B-A3B),结果

http://www.jsqmd.com/news/474973/

相关文章:

  • 蓝桥杯学习笔
  • HTTP/2 多路复用与头部压缩技术解析
  • OFA视觉蕴含模型保姆级教程:模型微调数据准备与LoRA训练流程
  • 【愚公系列】《人人都是AI程序员》024-项目实战2: 构建商业级AI 图像生成平台(十分钟实战:用 Vercel 部署并配置生产环境)
  • HTTP/3与QUIC协议:优势解析与迁移挑战探讨
  • SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks
  • SenseVoice Small部署教程:修复路径错误+导入失败+联网卡顿全方案
  • 深入解析RK3588 SDK目录结构:嵌入式Linux开发必备指南
  • 【愚公系列】《剪映+DeepSeek+即梦:短视频制作》001-初识剪映:快速打开短视频制作的大门(下载、安装与登录)
  • Webpack模块打包原理与Tree Shaking机制解析
  • Linux-包教包会系列之-shell
  • Vite:基于 ESM 的极速构建工具链探索
  • 从编译到实战:RocketMQ-CPP 2.2.0在CentOS8上的完整开发指南(含生产者/消费者示例)
  • 三 开发机器学习系统的过程
  • 免费使用openclaw真的好用——OpenClaw与OpenClaw Zero Token优劣势深度剖析
  • OpenClaw源码分析(二):工作流程与原理
  • 2026年中国视联网行业市场调研报告:从泛在连接到价值重构
  • 从移动激光点云到高精地图:道路标线智能识别与结构化建模全流程解析
  • 计算机视觉(五)全连接神经网络MLP实战:从理论到代码实现
  • CTFHUB-XSS-反射型实战:从漏洞检测到Cookie窃取
  • 深入STM32-寄存器编程实战解析
  • Step 3.5 Flash: Open Frontier-Level Intelligence with 11B Active Parameters
  • [技术解析] 构建AI驱动的GEO搜索引擎优化平台
  • Multi-agent cooperation through in-context co-player inference
  • 深入解析MANGOS数据库结构表:魔兽世界私服开发者的终极指南
  • 华为eNSP实战:USG5500防火墙IPsec虚拟专用网配置避坑指南(附拓扑图)
  • WebWorld: A Large-Scale World Model for Web Agent Training
  • 5分钟搞定frp内网穿透:从零配置到远程访问本地Web服务
  • 构建无限免费的AI编程伙伴:VSCode + Roo Code + Gemini Balance负载均衡策略详解
  • Netty实战:HttpObjectAggregator如何解决HTTP分块传输的烦恼?