当前位置: 首页 > news >正文

【调研报告】RL有哪些数据技巧?

LIMR(25.02,SJTU):从大数据集里面挑出小数据集。方法:
1. 计算第k步中所有样本平均奖励的变化情况(跑一小步就可以)
2. 对于第i个样本,计算其奖励和平均奖励曲线的对齐程度
3. 选出对齐程度高的样本作为训练样本
缺点:没有办法从大样本集合中选出高质量样本
DAPO:进行动态采样
RAFT:同样的,进行动态采样(学有对有错的题目);或者学全对的题目,也会很好;反之,学习
样本难度一比一比一配比:LightPPO
小红书的方法:

  1. 拿base模型rollout32次,一次都做不对的数据扔掉
  2. 先在全量数据上sft,将做不对的作为RL的训练样本
    R.Z的方法
  3. RL中混入数学数据集(GSM8K)效果可能会很好

clpo中提到, 可以使用模型自己的pass@k来衡量难度
JUSTRL中提到,或许没有任何trick也可以很好?

将训练数据集和测试集计算embedding相似度,进行筛选(见medical-gpt)

http://www.jsqmd.com/news/94081/

相关文章:

  • 视觉opencv学习笔记Ⅴ-数据增强(2)
  • 大模型开发范式变革:从单兵作战到多智能体团队协作(Autogen/CrewAI/LangGraph全解析)
  • 最近在研究Amesim的电池热管理模块,发现这玩意儿真的挺有意思。如果你也在搞这块,可能会遇到一些坑,今天就来聊聊我的一些学习心得,顺便分享几个模型
  • TCP 与 UDP 的全面解析:从基础概念到实际应用 - 详解
  • 2025年末总结:金刚砂/碳化硅/活性炭实力新锐推荐——品质为王,细分致胜 - 深度智识库
  • LobeChat能否取代商业AI产品?开源社区的最新讨论热点
  • 集装箱房品牌排名 TOP 榜单揭秘!诚栋营地凭全维硬实力领跑,成行业优选标杆 - 资讯焦点
  • 复旦哲学公开课-中国佛教史-导论
  • 2025年12月干冰批发公司综合实力排行榜:专业评测对比分析与选购决策指南 - 品牌推荐
  • 微服务架构设计 - 高并发缓存设计
  • PyTorch安装失败?试试这个预配置CUDA工具链的基础镜像
  • LobeChat能否实现负载均衡?高可用架构设计建议
  • LobeChat能否实现数据库持久化存储?避免数据丢失的关键
  • Miniconda安装后无法使用conda命令?原因与解决方法
  • Locust:可能是一款最被低估的压测工具
  • 【Java毕设项目】基于微信小程序的仓储管理系统+SpringBoot后端实现
  • 渗透测试流程是什么?这篇给你讲清楚!
  • 从零开始搭建Qwen3-14B推理服务的Docker配置指南
  • 2025年12月深圳劳动仲裁律师推荐榜:专业能力与服务价值综合评测指南 - 品牌推荐
  • LobeChat部署在云服务器上的最佳资源配置建议
  • 曙光屋sgwbox N3曝命令注入漏洞CVE-2025-14705,攻击者可远程利用
  • 在AI助手唾手可得的时代,构建生态兼容性成为新蓝海——某知名AI编程助手协作框架需求洞察
  • 从GitHub获取Qwen3-14B开源代码并本地运行的全流程
  • GPT-OSS-20B性能实测:3.6B活跃参数如何实现低延迟AI推理
  • vivado时序报告中slack是如何计算的?如何优化时序?
  • 查看模拟器图片位置--测试图片上传
  • 2025年五大有名的品牌背书公司推荐,专业品牌口碑背书企业全 - myqiye
  • LobeChat插件系统详解:如何扩展AI助手的无限可能?
  • AutoGPT是否需要持续人工干预?我们做了72小时连续测试
  • 百度SEO优化建议:提升Qwen3-32B相关内容排名