当前位置：首页 > news >正文

verl 测评模型

news 2026/4/9 11:10:28

当我们训练好了一个verl 检查点之后，如何用它来评估我们在测试集上的指标？

特别是涉及到工具调用的Agent训练，如果直接部署API，那么还需要搭建ReAct流，开发成本比较大。

个人觉得比较简单的一种方法为：

将测试集处理为verl 适配的parquet文件格式
开发对应的奖励函数（一般直接复用准确率奖励就好）
将验证集的地址改为测试集parquet地址
在训练脚本python -m verl.trainer.main_ppo命令之后，加上下面两行就好，表示模型不会进行训练，而是会评估验证集的表现。

   trainer.val_before_train=True \ # 进行训练前验证trainer.val_only=True          # 仅验证模式

http://www.jsqmd.com/news/119001/

相关文章：

脑机接口+AI：万亿美元市场的前夜，将如何重塑医疗与教育？

Open-AutoGLM容灾机制深度解析：如何实现毫秒级故障恢复与数据零丢失

反向海淘独立站成功案例全景解析（附可复用策略）

组织架构图简洁版在线免费制作工具

SPSS——多维尺度分析

comsol 等离子体仿真 mpcvd装置仿真，H2放电低气压mpcvd放电，等离子体沉积刻蚀仿真

【工业级自动化新标准】：Open-AutoGLM多手指协同的5大关键技术突破

北京陪诊需求地域集中性凸显京津冀及周边成服务高地 - 品牌排行榜单

AI自主代理（AI Agent）：从辅助工具到自主决策的进化

Excalidraw与VictoriaMetrics高性能监控集成

Excalidraw与Istio服务网格配置映射

区块链应用的功能与非功能测试要点

企业组织架构优化方案在线绘图工具

大同市软件公司哪个口碑好

Excalidraw与Kustomize配置管理集成

大同市软件公司排名

云测试平台的技术选型与效能评估

基于浣熊优化算法的改进Dvhop定位算法：多通信半径与跳距加权策略下的性能对比研究

Excalidraw支持神经形态计算架构

【Open-AutoGLM文本加速终极指南】：揭秘输入延迟的5大根源与优化策略

大数据技术的基于Hadoop的篮球NBA球员大数据分析与可视化_f26x9x94--论文-爬虫可视化

Excalidraw手绘白板神器：AI赋能下的技术架构图一键生成

河北酒店隔断定制口碑排行榜单新鲜出炉，自由组合隔断/感应门/办公隔断/单玻隔断/酒店隔断/电动门酒店隔断设计推荐排行榜 - 品牌推荐师

Excalidraw图形绿色节能标识

Open-AutoGLM推理延迟降低70%？资深架构师亲授优化清单

11.5 多Agent设计之道：协同工作机制与最佳实践

雷电模拟器里蛋仔派对更新时提示：检测到空间不足，请清理剩余存储空间至4027.52MB以上

RBAC vs ABAC：在Open-AutoGLM中如何选择最优权限模型？

12.1 图像生成革命：CV算法与AIGC工具应用场景分析

12.2 Stable Diffusion解密：图像生成的完整过程详解