当前位置: 首页 > news >正文

论文速读记录 | 2026.05



目录
  • On Variational Bounds of Mutual Information
  • On the Role of Iterative Computation in Reinforcement Learning
  • WileReward: Learning Reward Models from In-the-Wild Human Interactions
  • Can We Really Learn One Representation to Optimize All Rewards?
  • The Magic Correlations: Understanding Knowledge Transfer from Pretraining to Supervised Fine-Tuning
  • Improving Interactive In-Context Learning from Natural Language Feedback
  • Learning to Learn with Contrastive Meta-Objective
  • Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences
  • MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration
  • Absolute Zero: Reinforced Self-play Reasoning with Zero Data
  • CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery
  • auto-curriculum learning (Jiang et al., 2021b)
  • Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL
  • Unsupervised Skill Discovery via Recurrent Skill Training
  • Learning to Discover Skills through Guidance
  • One After Another: Learning Incremental Skills for a Changing World
  • Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching
  • Horizon Generalization in Reinforcement Learning
  • HIQL: Offline Goal-Conditioned RL with Latent States as Actions
  • Contrastive Preference Learning: Learning from Human Feedback without RL
  • Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
  • Rethinking Reward Modeling in Preference-based Large Language Model Alignment
  • DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
  • Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset
  • Data Center Cooling System Optimization Using Offline Reinforcement Learning
  • SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
  • Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
  • Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
  • Thinkless: LLM Learns When to Think
  • Learning to Reason without External Rewards


On Variational Bounds of Mutual Information

  • 来源:合作者推荐的文章,里面有互信息的各种 bounds。ICML 2019。
  • arxiv:https://arxiv.org/abs/1905.06922

On the Role of Iterative Computation in Reinforcement Learning

  • 来源:Eysenbach 新文章,跟 RL 有关,好像 abstract 有点吸引人;我可能没看过这类文章,有点好奇。
  • arxiv:https://arxiv.org/abs/2602.05999

WileReward: Learning Reward Models from In-the-Wild Human Interactions

  • 来源:专家的最新工作,从人类轨迹中(?)提取信息,训 reward model。
  • arxiv:https://arxiv.org/abs/2602.08829

Can We Really Learn One Representation to Optimize All Rewards?

  • 来源:Eysenbach 和 chongyi zheng 的新文章,看不太懂,但是有点好奇,简单速览一下吧。
  • arxiv:https://arxiv.org/abs/2602.11399

The Magic Correlations: Understanding Knowledge Transfer from Pretraining to Supervised Fine-Tuning

  • 来源:Google scholar 邮件推送,好像研究 SFT 为预训练的 LLM 带来了什么,可以速览一下。
  • arxiv:https://arxiv.org/abs/2602.11217

Improving Interactive In-Context Learning from Natural Language Feedback

  • 来源:Google scholar 邮件推送,好像研究如何把静态数据转化为 multi-turn 数据,用于训练 LLM,可以速览一下。
  • arxiv:https://arxiv.org/abs/2602.16066

Learning to Learn with Contrastive Meta-Objective

  • 来源:无意中看到的,NeurIPS 2025 oral。
  • arxiv:https://arxiv.org/abs/2410.05975

(还没读。这篇文章看起来比较古典,做的是传统 ML,并不是做 llm 的。
(这个东西能用在 llm 上吗?现在看到一个东西,就会想它能否用在 llm 上

Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences

  • 来源:无意中搜到的。ICRA 2025。
  • arxiv:https://arxiv.org/abs/2409.07268
  • GitHub:https://github.com/FeiCuiLengMMbb/paper_MTPL
  • 好奇是不是 multi-type + PbRL。

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

  • arxiv:https://arxiv.org/abs/2006.08170
  • 来源:合作者说有趣的 skill + meta-RL 论文,ICML 2021。

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

  • arxiv:https://arxiv.org/abs/2505.03335
  • 来源:neurips 2025 best paper 的一作 yue yang 的 NeurIPS 2025 spotlight 工作。被题目吸引住了,单纯好奇,想读一读。

CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery

  • arxiv:https://arxiv.org/abs/2202.00161
  • 来源:想起来,想看一下。

auto-curriculum learning (Jiang et al., 2021b)

  • 来源:RSD。似乎可以做自动 curriculum learning,或许是有启发性的。

Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL

  • 来源:RGSD。可能包含一个技能库,也想看。速读一下就行。

Unsupervised Skill Discovery via Recurrent Skill Training

  • 来源:合作者推荐的 skill discovery 先前工作。

Learning to Discover Skills through Guidance

  • 来源:同上。

One After Another: Learning Incremental Skills for a Changing World

  • 来源:同上。

Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching

  • 来源:同上。

Horizon Generalization in Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2501.02709
  • website:https://horizon-generalization.github.io/
  • 来源:Benjamin Eysenbach 的新作,是一篇 arxiv paper,同学说有趣。

HIQL: Offline Goal-Conditioned RL with Latent States as Actions

  • arxiv:https://arxiv.org/abs/2307.11949
  • website:https://seohong.me/projects/hiql/
  • 来源:合作者推荐的文章,好像也是 Benjamin Eysenbach 发表的。

Contrastive Preference Learning: Learning from Human Feedback without RL

  • arxiv:https://arxiv.org/abs/2310.13639
  • GitHub:https://github.com/jhejna/cpl
  • 来源:无意中搜到的文章,ICLR 2024,好像之前读过。
  • 主要内容:

Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2502.08985
  • 来源:同学的最新工作。
  • 主要内容:
    • 这篇文章关注的 setting 是 offline multi-task MARL;特别的,agent 只在(比如说)三个人合作的场景上训练,然后就可以泛化到任意多个人合作的场景。同学讲的故事是,用 transformer 作为一个翻译器,把三个人的合作动作翻译为多个人的,感觉这个故事听起来非常好。

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

  • arxiv:https://arxiv.org/abs/2411.04991
  • OpenReview:https://openreview.net/forum?id=rfdblE10qm
  • 来源:ICLR 2025 oral。
  • 主要内容:
    • 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
    • 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
    • 实验是否过于 toy(?)理论大概说了什么(?)

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

  • arxiv:https://arxiv.org/abs/2410.05527
  • open review:https://openreview.net/forum?id=2iYVBqRHK4
  • 来源:合作者推荐的文章。
  • 主要内容:
    • preference-based index policy(?)
  • whittle index,一个结论,两个等价条件,经典问题的证明方式。

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

  • 来源:师兄的文章。

Data Center Cooling System Optimization Using Offline Reinforcement Learning

  • arxiv:https://arxiv.org/pdf/2501.15085
  • 来源:xianyuan zhan 组的新文章。
  • 主要内容:
    • T-symmetry。

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

  • arxiv:https://arxiv.org/abs/2407.04752
  • 来源:师兄推荐的神秘文章,ICLR 2025 poster。

Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment

  • arxiv:https://arxiv.org/abs/2410.23680
  • 来源:偶然看到的文章。

Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

  • arxiv:https://arxiv.org/abs/2505.21067
  • 来源:偶然看到的文章。

Thinkless: LLM Learns When to Think

  • arxiv:https://arxiv.org/abs/2505.13379
  • 来源:偶然看到的文章。

Learning to Reason without External Rewards

  • arxiv:https://arxiv.org/abs/2505.19590
  • 来源:偶然看到的文章。


http://www.jsqmd.com/news/733203/

相关文章:

  • 为什么92%的PHP团队还在用伪异步写AI机器人?PHP 9.0真正的I/O并行能力(含Redis Stream+LLM Token流式调度实战)
  • 从URDF到SDF:搞机器人仿真,你该用哪个模型文件?一篇讲清区别和选择
  • 如何用PCL2一键导出完美整合包:新手到专家的完整指南
  • 新手别慌!用VSCode+Node.js从零跑通你的第一个Vue后台管理系统(保姆级图文)
  • 别再乱选模板了!Eplan新建项目时,GB、IEC、NFPA、GOST四大标准符号库到底怎么选?
  • 痕迹与自感:跨文明思想史论
  • 2026年国内个人出书机构排名:五大主流平台综合实力深度测评 - 科技焦点
  • 别再死磕SIFT了!2024年用OpenCV+Python搞定SFM三维重建的保姆级教程
  • 钧瓷估价模型2.0发布|2026年5月钧瓷匠人基准价全览
  • 甲言(Jiayan)开源工具:古汉语NLP处理的完整解决方案指南
  • 5分钟快速配置:让Mem Reduct内存管理工具完美适配你的使用习惯
  • 2026年3月奖牌制作品牌推荐,机械铭牌/发光字/金属腐蚀牌/灯箱/厂区安全标识牌/城市道路标志牌,奖牌制作品牌选哪家 - 品牌推荐师
  • FanControl风扇控制终极指南:从新手到高手的完整教程
  • Windows字体渲染终极指南:如何用MacType快速实现专业级文字显示效果
  • 为团队统一配置 Taotoken CLI 工具提升开发效率
  • Video-Compare架构深度解析:从多线程视频处理引擎到实时画质分析系统
  • pthread亲和性继承的一个坑:main绑核让整个进程退化到单核
  • 终极指南:如何免费解锁Cursor Pro完整功能 - 技术解密与完整配置方案
  • Spring框架03(上):Spring 框架开发程序的方式:从零搭建一个原生 JDBC + Druid 的 Spring 项目(纯配置文件形式)
  • 关于华夏百川中频激光治疗仪相关负面报道的正式说明 - 野榜精选
  • 不只是看源码:用JD-GUI插件在IDEA里直接反编译依赖jar包
  • [开源] OpenTalking:整合 LLM、流式 TTS 与 WebRTC 的实时数字人编排框架
  • 保姆级教程:在YOLOv8中手把手替换BiFPN,并添加P2层提升小目标检测效果
  • 比亚迪DiLink 4.0车机Root实战:从固件提取到Magisk修补的保姆级避坑指南
  • 告别‘一病一药’:用PromptIR这个‘万能提示’模块,一个模型搞定图片去雾、去雨、去噪
  • 别再只用CBC了!聊聊OpenSSL AES ECB模式那些容易被忽略的坑(附C++实战代码)
  • 从Slack反推设计瓶颈:一个真实案例带你玩转Vivado Path Report
  • 保姆级教程:手把手教你将YOLOv8-Seg模型从PyTorch移植到C++推理引擎(附完整代码)
  • 从一次Samba挂载失败,聊聊Linux网络文件系统(CIFS/SMB)的版本兼容性与安全策略
  • 有效睡眠的本质的庖丁解牛