当前位置: 首页 > news >正文

verl grpo 快速开始

1. 什么是verl

verl是字节开发的一个RL框架,是现在最主流的强化学习算法框架,没有之一。

2. 环境部署

作者在不拉docker镜像的前提下,尝试使用官方教程部署verl,部署后,代码跑不通。
上网查了很多资料后,作者自己摸索出了一套流程,可以成功部署环境,并且跑通代码。

  • 前置条件:cuda>12.2
  1. 下载git库
git clone https://github.com/volcengine/verl.git
cd verl
  1. 使用uv创建虚拟环境(在<venv-path>中填入环境的存储地址)(这里python版本设为3.10或者3.12都可以)
uv venv <venv-path> --python=3.12
source <venv-path>/bin/activate
  1. 安装v0.5.0版本的verl
# 进入verl文件夹中
cd verl
git checkout v0.5.0
uv pip install e .
uv pip install vllm==0.8.2
uv pip install tensordict==0.6.2
uv pip install "sglang[all]>=0.4.5.post3"
uv pip install torch==2.6.0 torchaudio==2.6.0  torchvision==0.21.0
uv pip install ray==2.44.0

下载flash-attn(点击链接即可下载)后,上传到服务器,然后安装

uv pip install flash_attn-2.6.3+cu123torch2.4cxx11abiFALSE-cp312-cp312-linux_x86_64.whl

3. GRPO 快速开始

  1. 下载gsm8k数据集(在<data_dir>中填入数据集的醋出路径)
cd verl
source <venv-path>/bin/activate 
export HF_ENDPOINT=https://hf-mirror.com
python3 examples/data_preprocess/gsm8k.py --local_dir <data_dir>
  1. 下载模型
huggingface-cli download Qwen/Qwen2.5-3B-Instruct --local-dir <qwen-model-path>
  1. 传入wandb api-key
export WANDB_API_KEY=your_api_key_here
  1. 开始训练
    1. 修改examples/grpo_trainer/run_qwen2_5-3b_gsm8k_grpo_lora.sh中的几个参数
      • data.train_files:训练集数据地址(<data_dir>/train.parquet
      • data.val_files:测试集数据地址(<data_dir>/test.parquet)
      • actor_rollout_ref.model.path:模型地址(<qwen-model-path>)
      • actor_rollout_ref.rollout.tensor_model_parallel_size:如果是在单GPU上运行,需要改为1
      • trainer.n_gpus_per_node(根据自己的GPU数量设置)
    2. 运行脚本
      bash examples/grpo_trainer/run_qwen2_5-3b_gsm8k_grpo_lora.sh
      
http://www.jsqmd.com/news/59548/

相关文章:

  • LLM 投毒 [1/3] - 解读Transformer的“思想”
  • 博士留学录取率榜单出炉:谁的Offer产出能力最强?
  • 前端文件上传终极指南:从原理到架构实践! - 实践
  • 2025年美的真暖空气能中央空调品牌权威推荐榜单:美的尊享HNM1壁挂炉‌/美的明装暖气‌/美的真享水科技中央空调‌品牌精选
  • 2025年泡沫模块供货厂家权威推荐榜单:工业化循环水养殖‌/海容模块建房‌/鱼池墙体材料‌源头厂家精选
  • 2025年中国十大超声波吐司面包切割机服务商推荐:哪家售后服
  • 2025年打工人代餐清单:上班族便携即食的低热量代餐品牌推荐
  • ScheduledExecutorService中调度方法scheduleWithFixedDelay,scheduleAtFixedRate,schedule的异同
  • 今日收获小SB一枚
  • 深入解析:⸢ 拾贰 ⸥⤳ 实战攻防演练:红蓝对抗 有效性检验
  • 2025年汽车零部件柔性抓取解决方案:柔触机器人如何赋能车灯自动化搬运
  • sql server 导出excel表
  • 2025年市场热销雷达干扰模拟器品牌实力排行,无线信号测量仪表/以太网测试仪/光通信测量仪表雷达干扰模拟器企业推荐排行榜单
  • 【文章管理系统团队】Alpha阶段Scrum冲刺第2天随笔
  • 最大化仿射变换
  • 视频汇聚平台EasyCVR级联至萤石云平台通道无法播放原因排查
  • 2025年3C电子分拣柔性夹爪优选厂家
  • 2025年柔性夹爪品牌怎么选?苏州柔触机器人核心技术
  • 2025年医疗用品搬运技术革新:柔性夹爪解决方案全景解析
  • 选对天津高通阀门,安全有保障!最新权威测评揭秘全国阀门生产厂家
  • 四川如何选出靠谱的泡菜坛/陶坛批发厂家?
  • P4690 [Ynoi Easy Round 2016] 镜中的昆虫
  • 【MCP系列】飞书MCP启用
  • 2025 年成都殡葬服务公司最新推荐榜,聚焦企业服务品质与人文关怀深度解析成都殡葬 / 成都殡葬一条龙服务公司推荐
  • 易基因:山东大学基础医学院李雷教授团队微量WGBS揭示DNA甲基化调控斑马鱼造血干细胞发育的表观遗传机制|项目文章
  • 2025年中国机床钣金加工企业综合竞争力TOP5排行榜
  • 2025 年支架生产厂家最新推荐榜:聚焦产能与品质,精选五大优质品牌助力工程采购钢结构支架/电力支架/角钢支架/电缆支架/电缆沟支架公司推荐
  • 2025年五大实验室耗材品牌排行榜,芯硅谷实力出众
  • 视频汇聚平台EasyCVR接入设备后发现分辨率与设备端配置不同步的原因排查
  • 2025年中国十工业脚轮厂家推荐:推荐聚氨酯工业脚轮厂家哪家