当前位置: 首页 > news >正文

一起聊聊JustRL,如何只用最基础的 RL 配方也能达到不错的性能?

青稞社区:https://qingkeai.online/
原文:https://mp.weixin.qq.com/s/so8r31sbi1GU4uILKQHU0g

如果有人说:不用分阶段训练、不搞课程学习、不动态调参,只用最基础的 RL 配方也能达到不错的性能,会是怎样的结果?

清华团队用两个 1.5B 模型做了这个尝试。结果在 9 个数学推理基准上达到了 54.87% 和64.32% 的新基线,算力只用了一半,训练过程也很平稳,4000步没遇到什么大问题。

更有趣的是,当我们试着加入一些"应该有用"的优化时,性能反而下降了。也许在某些情况下,简单的方法充分训练后,效果可能比我们预期的要好。这个工作最大的 novelty,也许就在于没有 novelty。

2月3日(周二)晚8点,青稞社区和减论平台将联组织 #青稞Talk 第107期,清华大学博士生何秉翔,将直播分享《JustRL: 用"最笨"的 RL 方法刷新 1.5B 推理模型新基线》。

分享嘉宾

何秉翔,清华大学博士生,导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习,曾在 ACL、ICML、NeurIPS 等人工智能国际顶级会议发表论文,谷歌学术引用量超1000次。

主题提纲

JustRL: 用"最笨"的 RL 方法刷新 1.5B 推理模型新基线

1、RL 训练的 Trick 方法
2、极致简洁的 JustRL 及实现
3、消融实验及性能对比
4、AMA (Ask Me Anything)环节

直播时间

2月3日(周二)20:00 - 21:00

如何观看

Talk 将在青稞社区【视频号:青稞AI、Bilibili:青稞AI】上进行进行直播,欢迎预约观看!

Bilibili 直播间:
https://live.bilibili.com/32145701

http://www.jsqmd.com/news/334165/

相关文章:

  • CF2111E 学习笔记
  • 苹果手机文件传输到电脑指南:一文学会4个高效技巧
  • 票台
  • 三大获取股票实时数据方式比较
  • fnOS 飞牛云 NAS 本地部署私人影视库 MoonTV 并实现外部访问
  • 大坝渗压监测技术与应用分析
  • 2026年西安/中山/上海/惠州/常州女性植发机构推荐榜 - 极欧测评
  • 2026年湛江/北京/盐城/长沙/乌鲁木齐植发机构推荐优选榜 - 极欧测评
  • 国产化系统中,SpringMVC如何支持百M大文件的快速下载?
  • springboot五子棋人机对弈-开题报告
  • CF2117D 学习笔记
  • 关于导师手把手教我看英文文献这件事
  • CF2141D 学习笔记
  • CF2129B 学习笔记
  • 2026年杭州/泉州/东莞/大连/哈尔滨女性植发机构推荐 - 极欧测评
  • 有色金属热度攀升 聊聊背后的逻辑与工具
  • Ivanti EPMM RCE CVE-2026-1340/1281完整分析
  • AI写的青基中了
  • 2026年无锡/徐州/昆明/南宁/南通女性植发机构推荐好评榜 - 极欧测评
  • 学习进度 17
  • 2026年沈阳/珠海/兰州/西宁/石家庄植发机构推荐榜 - 极欧测评
  • <span class=“js_title_inner“>进入银行科技部半年,已丧失跳槽能力。。</span>
  • 2026年智慧城管整体解决方案 - 全956页下载
  • 【无人机辅助覆盖】搭载无人机的空中基站在19个六边形蜂窝网络的部署方案动态优化,实现信干噪比、吞吐量、用户提升蜂窝网络性能附matlab代码
  • Everything下载2026官方正版:从下载安装到秒速搜文件(保姆级图文教程) - xiema
  • 背包专题 - hdu Bone Collector
  • <span class=“js_title_inner“>悄悄加字段,代码不报错:MySQL 8.0 “隐藏列” (Invisible Columns) 的黑魔法</span>
  • 2026年宁波/南京/合肥/温州/济南植发机构口碑推荐榜 - 极欧测评
  • 2026年广州/天津/太原/郑州/成都女性植发机构推荐口碑榜 - 极欧测评
  • 深入解析:【Zephyr电源与功耗专题】15_功耗优化测试工具与手段