当前位置：首页 > news >正文

【调研报告】RL有哪些数据技巧？

news 2026/7/10 21:11:40

LIMR（25.02，SJTU）：从大数据集里面挑出小数据集。方法：
1. 计算第k步中所有样本平均奖励的变化情况（跑一小步就可以）
2. 对于第i个样本，计算其奖励和平均奖励曲线的对齐程度
3. 选出对齐程度高的样本作为训练样本
缺点：没有办法从大样本集合中选出高质量样本
DAPO：进行动态采样
RAFT：同样的，进行动态采样（学有对有错的题目）；或者学全对的题目，也会很好；反之，学习
样本难度一比一比一配比：LightPPO
小红书的方法：

拿base模型rollout32次，一次都做不对的数据扔掉
先在全量数据上sft，将做不对的作为RL的训练样本
R.Z的方法
RL中混入数学数据集（GSM8K）效果可能会很好

clpo中提到，可以使用模型自己的pass@k来衡量难度
JUSTRL中提到，或许没有任何trick也可以很好？

将训练数据集和测试集计算embedding相似度，进行筛选（见medical-gpt）

http://www.jsqmd.com/news/94081/

相关文章：

视觉opencv学习笔记Ⅴ-数据增强(2)

大模型开发范式变革：从单兵作战到多智能体团队协作（Autogen/CrewAI/LangGraph全解析）

最近在研究Amesim的电池热管理模块，发现这玩意儿真的挺有意思。如果你也在搞这块，可能会遇到一些坑，今天就来聊聊我的一些学习心得，顺便分享几个模型

TCP 与 UDP 的全面解析：从基础概念到实际应用 - 详解

2025年末总结：金刚砂/碳化硅/活性炭实力新锐推荐——品质为王，细分致胜 - 深度智识库

LobeChat能否取代商业AI产品？开源社区的最新讨论热点

集装箱房品牌排名 TOP 榜单揭秘！诚栋营地凭全维硬实力领跑，成行业优选标杆 - 资讯焦点

复旦哲学公开课-中国佛教史-导论

2025年12月干冰批发公司综合实力排行榜：专业评测对比分析与选购决策指南 - 品牌推荐

微服务架构设计 - 高并发缓存设计

PyTorch安装失败？试试这个预配置CUDA工具链的基础镜像

LobeChat能否实现负载均衡？高可用架构设计建议

LobeChat能否实现数据库持久化存储？避免数据丢失的关键

Miniconda安装后无法使用conda命令？原因与解决方法

Locust：可能是一款最被低估的压测工具

【Java毕设项目】基于微信小程序的仓储管理系统+SpringBoot后端实现

渗透测试流程是什么？这篇给你讲清楚！

从零开始搭建Qwen3-14B推理服务的Docker配置指南

2025年12月深圳劳动仲裁律师推荐榜：专业能力与服务价值综合评测指南 - 品牌推荐

LobeChat部署在云服务器上的最佳资源配置建议

曙光屋sgwbox N3曝命令注入漏洞CVE-2025-14705，攻击者可远程利用

在AI助手唾手可得的时代，构建生态兼容性成为新蓝海——某知名AI编程助手协作框架需求洞察

从GitHub获取Qwen3-14B开源代码并本地运行的全流程

GPT-OSS-20B性能实测：3.6B活跃参数如何实现低延迟AI推理

vivado时序报告中slack是如何计算的？如何优化时序？

查看模拟器图片位置--测试图片上传

2025年五大有名的品牌背书公司推荐，专业品牌口碑背书企业全 - myqiye

LobeChat插件系统详解：如何扩展AI助手的无限可能？

AutoGPT是否需要持续人工干预？我们做了72小时连续测试

百度SEO优化建议：提升Qwen3-32B相关内容排名