当前位置: 首页 > news >正文

使用uv安装并运行rllm(不需要拉docker)

1. 什么是rllm

rllm是伯克利开发的一个用于Agent RL的框架,基于verl开发,简单易上手,可以快速定义环境和工具,并一键运行。

2. 环境部署

作者在不拉docker镜像的前提下,尝试使用官方教程部署rllm,部署后,代码跑不通。
上网查了很多资料后,作者自己摸索出了一套流程,可以成功部署环境,并且跑通代码。

  • 前置条件:cuda>12.2
  1. 下载git库
git clone --recurse-submodules https://github.com/rllm-org/rllm.git
cd rllm
  1. 使用uv创建虚拟环境(在<rllm-venv-path>中填入环境的存储地址)(这里python版本设为3.10或者3.12都可以)
uv venv <rllm-venv-path> --python=3.12
source <rllm-venv-path>/bin/activate
  1. 安装v0.5.0版本的verl
# 进入verl文件夹中
cd verl
git checkout v0.5.0
uv pip install e .
uv pip install vllm==0.8.2
uv pip install tensordict==0.6.2
uv pip install "sglang[all]>=0.4.5.post3"
uv pip install torch==2.6.0 torchaudio==2.6.0  torchvision==0.21.0
uv pip install ray==2.44.0

下载flash-attn(点击链接即可下载)后,上传到服务器,然后安装

uv pip install flash_attn-2.6.3+cu123torch2.4cxx11abiFALSE-cp312-cp312-linux_x86_64.whl
  1. 安装rllm
# 进入rllm项目文件夹中
cd ../
uv pip install e .
  1. 创建另外一个环境,用于运行vllm(上面安装的vllm运行Qwen3的模型可能会有问题)
uv venv <venv-vllm-path> --python=3.10
source <venv-vllm-path>/bin/activate
uv pip install vllm

3. quickstart

  1. 下载Qwen3-4B模型(在 <qwen-model-path>中填入自己模型的路径)
source <rllm-venv-path>/bin/activate
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli download Qwen/Qwen3-4B --local-dir <qwen-model-path>
  1. 下载数据集(在 <data-path1> <data-path2>中填入自己模型的路径)
huggingface-cli download --repo-type dataset agentica-org/DeepScaleR-Preview-Dataset --local-dir <data-path1>
huggingface-cli download --repo-type dataset HuggingFaceH4/aime_2024 --local-dir <data-path2>
  1. 使用vllm部署Qwen3-4B模型
source <venv-vllm-path>/bin/activate
MODEL_PATH=<qwen-model-path>
python -m vllm.entrypoints.openai.api_server \--model $MODEL_PATH \--host 0.0.0.0 \--port 30000 
  1. 注册数据集
    1. 进入examples/math_tool文件夹中
    2. prepare_math_data.py中的load_dataset中的数据集改为本地路径(也就是 <data-path1> <data-path2>
    3. 运行
      source <rllm-venv-path>/bin/activate
      python prepare_math_data.py
      
  2. 运行推理脚本
    1. 进入examples/math_tool文件夹中
    2. run_math_with_tool中的model_name变量中的数据集改为<qwen-model-path>的值
    3. 运行
      source <rllm-venv-path>/bin/activate
      python run_math_with_tool.py
      
  3. 运行训练脚本(如果只想运行训练脚本,那么不需要执行第3步和第5步)
    1. 进入examples/math_tool文件夹中
    2. 设置wandb的api-key
      export WANDB_API_KEY=your_api_key_here
      
    3. 修改train_math_with_tool.sh的脚本中的参数
      需要改的参数有这么几个:
      1. actor_rollout_ref.model.path:要训练的模型的路径(设置为<qwen-model-path>
      2. trainer.n_gpus_per_node:GPU的数量
      3. trainer.save_freq:多少步保存一次。(为了测试用,这里设置为1)
      4. trainer.test_freq:多少步测试一次。(为了测试用,这里设置为1)
      5. trainer.total_epochs:一共有多少个epoch。(为了测试用,这里为1)
        此外,还有一些需要加的参数
      6. trainer.max_actor_ckpt_to_keep:最多保存多少个检查点(为了测试用,这里设为1)
      7. trainer.max_critic_ckpt_to_keep:同上
      8. trainer.default_local_dir:检查点路径
    4. 执行
    # 退回到rllm项目文件夹中
    cd ../../
    bash examples/math_tool/train_math_with_tool.sh
    
http://www.jsqmd.com/news/58390/

相关文章:

  • 推荐一家放心的保研规划:这篇推荐指南请收下!
  • 2025 年 12 月制氮机厂家推荐榜单,PSA制氮机装置,模组制氮机,氨气净化干燥装置,高效稳定品牌精选!
  • 2025年系统断桥铝门窗实力厂家权威推荐榜单:中国系统门窗排行榜‌/系统门窗加盟‌/系统门窗代理‌源头厂家精选
  • 2025年豪宅高定家具TOP10口碑榜:住过的人都说“香”
  • 水中油检测仪器正规供应商TOP5权威推荐:个性化定制优选指南
  • 保研机构哪家实惠?这 10 家 “性价比之王”,预算有限也能选!
  • 2025 年 12 月品牌营销咨询公司权威推荐榜:策略创新与市场洞察力的卓越之选!
  • 文本到图像、涂鸦转换、人像风格重塑
  • 2025数据安全管理平台Top榜:自定义合规治理AI优化能力评测
  • 河南青少年荷球联赛收官,郑州七中男女混合队夺冠
  • 作业8
  • 最值得打卡的十大火锅品牌排行榜出炉,重庆火锅/火锅/美食/特色美食/老火锅/火锅店/川渝火锅火锅品牌排行
  • APP界面设计公司分享;社交金融APP情感化设计打破行业刻板印象
  • 聊聊新款MacBook Air的CPU与奇葩散热设计
  • RelativeLayout 根布局里有一个子布局预期一直展示,但子布局RelativeLayout被 覆盖了
  • 【IO多路转接】epoll 高性能网络编程:从底层机制到服务器实战 - 教程
  • “骑跑中国” 重庆站开赛,600 组家庭解锁全民健身新赛道
  • 仓库货架公司推荐,钢制货架/冷库货架/托盘货架/组合式货架/精益管料架/金属货架/仓库货架产品有哪些
  • 2025年高端家具TOP10权威榜单揭晓:真实排名颠覆想象
  • 技术强管理规范的源头厂家甄选指南,助力企业降本提效
  • 嘉峪关青少年飞盘赛开赛,100 余名小将默契比拼
  • 2025年耐高温硅胶线批发厂家权威推荐榜单:硅胶线‌/PVC电子线‌/硅胶数据线‌源头厂家精选
  • 华润饮料中超第 30 轮激战,北京国安 7-0 大胜云南玉昆
  • 湖北男足点球大战险胜广东,首夺全运会男足冠军
  • 第五届北京 BMX 小轮车公开赛收官,青少年展现极限活力
  • Studio 3T 2025.22 发布 - MongoDB 的终极 GUI、IDE 和 客户端
  • 利用梯度下降求一个凸函数的最小值
  • 2025年12月深圳AI搜索优化排名公司推荐:技术领航与性价比之选
  • 防脱洗发水哪个好用?实测这几款防脱洗发水,针对不同脱发类型有效防脱
  • 2025国内企业如何选择国际短信平台?国际物流通知短信平台,全球覆盖、成本控制与高并发能力十强全解析