当前位置: 首页 > news >正文

verl 测评模型

当我们训练好了一个verl 检查点之后,如何用它来评估我们在测试集上的指标?

特别是涉及到工具调用的Agent训练,如果直接部署API,那么还需要搭建ReAct流,开发成本比较大。

个人觉得比较简单的一种方法为:

  1. 将测试集处理为verl 适配的parquet文件格式
  2. 开发对应的奖励函数(一般直接复用准确率奖励就好)
  3. 将验证集的地址改为测试集parquet地址
  4. 在训练脚本python -m verl.trainer.main_ppo命令之后,加上下面两行就好,表示模型不会进行训练,而是会评估验证集的表现。
   trainer.val_before_train=True \ # 进行训练前验证trainer.val_only=True          # 仅验证模式
http://www.jsqmd.com/news/119001/

相关文章:

  • 脑机接口+AI:万亿美元市场的前夜,将如何重塑医疗与教育?
  • Open-AutoGLM容灾机制深度解析:如何实现毫秒级故障恢复与数据零丢失
  • 反向海淘独立站成功案例全景解析(附可复用策略)
  • 组织架构图简洁版 在线免费制作工具
  • SPSS——多维尺度分析
  • comsol 等离子体仿真 mpcvd装置仿真,H2放电低气压mpcvd放电,等离子体沉积刻蚀仿真
  • 【工业级自动化新标准】:Open-AutoGLM多手指协同的5大关键技术突破
  • 北京陪诊需求地域集中性凸显 京津冀及周边成服务高地 - 品牌排行榜单
  • AI自主代理(AI Agent):从辅助工具到自主决策的进化
  • Excalidraw与VictoriaMetrics高性能监控集成
  • Excalidraw与Istio服务网格配置映射
  • 区块链应用的功能与非功能测试要点
  • 企业组织架构优化方案 在线绘图工具
  • 大同市软件公司哪个口碑好
  • Excalidraw与Kustomize配置管理集成
  • 大同市软件公司排名
  • 云测试平台的技术选型与效能评估
  • 基于浣熊优化算法的改进Dvhop定位算法:多通信半径与跳距加权策略下的性能对比研究
  • Excalidraw支持神经形态计算架构
  • 【Open-AutoGLM文本加速终极指南】:揭秘输入延迟的5大根源与优化策略
  • 大数据技术的基于Hadoop的篮球NBA球员大数据分析与可视化_f26x9x94--论文-爬虫 可视化
  • Excalidraw手绘白板神器:AI赋能下的技术架构图一键生成
  • 河北酒店隔断定制口碑排行榜单新鲜出炉,自由组合隔断/感应门/办公隔断/单玻隔断/酒店隔断/电动门酒店隔断设计推荐排行榜 - 品牌推荐师
  • Excalidraw图形绿色节能标识
  • Open-AutoGLM推理延迟降低70%?资深架构师亲授优化清单
  • 11.5 多Agent设计之道:协同工作机制与最佳实践
  • 雷电模拟器里蛋仔派对更新时提示:检测到空间不足,请清理剩余存储空间至4027.52MB以上
  • RBAC vs ABAC:在Open-AutoGLM中如何选择最优权限模型?
  • 12.1 图像生成革命:CV算法与AIGC工具应用场景分析
  • 12.2 Stable Diffusion解密:图像生成的完整过程详解