当前位置: 首页 > news >正文

论文速读记录 | 2025.12(2)



目录
  • Exploiting Unlabeled Data for Feedback Efficient Human Preference based Reinforcement Learning
  • 一些 labeled data / expert demo + unlabeled data 的 offline RL 工作
  • (HILP) Foundation policies with hilbert representations
  • Multi-Task Learning as Multi-Objective Optimization
  • Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences
  • MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration
  • Absolute Zero: Reinforced Self-play Reasoning with Zero Data
  • CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery
  • auto-curriculum learning (Jiang et al., 2021b)
  • Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL
  • Unsupervised Skill Discovery via Recurrent Skill Training
  • Learning to Discover Skills through Guidance
  • One After Another: Learning Incremental Skills for a Changing World
  • Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching
  • Horizon Generalization in Reinforcement Learning
  • HIQL: Offline Goal-Conditioned RL with Latent States as Actions
  • Contrastive Preference Learning: Learning from Human Feedback without RL
  • Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
  • Rethinking Reward Modeling in Preference-based Large Language Model Alignment
  • DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
  • Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset
  • Data Center Cooling System Optimization Using Offline Reinforcement Learning
  • SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
  • Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
  • Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
  • Thinkless: LLM Learns When to Think
  • Learning to Reason without External Rewards


Exploiting Unlabeled Data for Feedback Efficient Human Preference based Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2302.08738
  • 来源:无意中看到的,AAAI 2023。
  • 主要内容:为 PbRL 提出两种无监督 / 自监督技术,来 online 地利用 unlabelled data。1. 认为所有 unlabelled segment 都是人类喜欢的,并将 [R1 R2 ... RH] 作为奖励向量,通过神秘的 triplet loss 进行对比学习;2. 鼓励 reward model 中 state 的 embedding(没有细看这是什么)之间的距离满足 temporal distance,使用 MSE loss 来做。
  • 没有细读。

一些 labeled data / expert demo + unlabeled data 的 offline RL 工作

  • 除了 CDS UDS 之外,还有:
  • The Provable Benefits of Unsupervised Data Sharing for Offline Reinforcement Learning,https://arxiv.org/abs/2302.13493 ,ICLR 2023,师兄的工作。好像很理论,没有看。
  • CLUE: Calibrated Latent Guidance for Offline Reinforcement Learning,https://arxiv.org/abs/2104.07749 ,CoRL 2023,。
  • Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories,https://arxiv.org/abs/2210.06518 ,ICML 2023,。

(HILP) Foundation policies with hilbert representations

  • arxiv:https://arxiv.org/abs/2402.15567
  • website:https://seohong.me/projects/hilp/
  • 来源:offline metra(?)

Multi-Task Learning as Multi-Objective Optimization

  • arxiv:https://arxiv.org/abs/1810.04650
  • 来源:合作者提到的论文,用 multi-objective 的方式来解决 multi-task 问题。NeurIPS 2018。
  • (感觉对 RL 来说,如果 multi-task 的 task 之间 transition 相同,只有 reward 不同,那么问题 setting 好像跟 multi-objective 挺像的()

Multi-Type Preference Learning: Empowering Preference-Based Reinforcement Learning with Equal Preferences

  • 来源:无意中搜到的。ICRA 2025。
  • arxiv:https://arxiv.org/abs/2409.07268
  • GitHub:https://github.com/FeiCuiLengMMbb/paper_MTPL
  • 好奇是不是 multi-type + PbRL。

MetaCURE: Meta Reinforcement Learning with Empowerment-Driven Exploration

  • arxiv:https://arxiv.org/abs/2006.08170
  • 来源:合作者说有趣的 skill + meta-RL 论文,ICML 2021。

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

  • arxiv:https://arxiv.org/abs/2505.03335
  • 来源:neurips 2025 best paper 的一作 yue yang 的 NeurIPS 2025 spotlight 工作。被题目吸引住了,单纯好奇,想读一读。

CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery

  • arxiv:https://arxiv.org/abs/2202.00161
  • 来源:想起来,想看一下。

auto-curriculum learning (Jiang et al., 2021b)

  • 来源:RSD。似乎可以做自动 curriculum learning,或许是有启发性的。

Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL

  • 来源:RGSD。可能包含一个技能库,也想看。速读一下就行。

Unsupervised Skill Discovery via Recurrent Skill Training

  • 来源:合作者推荐的 skill discovery 先前工作。

Learning to Discover Skills through Guidance

  • 来源:同上。

One After Another: Learning Incremental Skills for a Changing World

  • 来源:同上。

Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching

  • 来源:同上。

Horizon Generalization in Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2501.02709
  • website:https://horizon-generalization.github.io/
  • 来源:Benjamin Eysenbach 的新作,是一篇 arxiv paper,同学说有趣。

HIQL: Offline Goal-Conditioned RL with Latent States as Actions

  • arxiv:https://arxiv.org/abs/2307.11949
  • website:https://seohong.me/projects/hiql/
  • 来源:合作者推荐的文章,好像也是 Benjamin Eysenbach 发表的。

Contrastive Preference Learning: Learning from Human Feedback without RL

  • arxiv:https://arxiv.org/abs/2310.13639
  • GitHub:https://github.com/jhejna/cpl
  • 来源:无意中搜到的文章,ICLR 2024,好像之前读过。
  • 主要内容:

Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2502.08985
  • 来源:同学的最新工作。
  • 主要内容:
    • 这篇文章关注的 setting 是 offline multi-task MARL;特别的,agent 只在(比如说)三个人合作的场景上训练,然后就可以泛化到任意多个人合作的场景。同学讲的故事是,用 transformer 作为一个翻译器,把三个人的合作动作翻译为多个人的,感觉这个故事听起来非常好。

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

  • arxiv:https://arxiv.org/abs/2411.04991
  • OpenReview:https://openreview.net/forum?id=rfdblE10qm
  • 来源:ICLR 2025 oral。
  • 主要内容:
    • 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
    • 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
    • 实验是否过于 toy(?)理论大概说了什么(?)

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

  • arxiv:https://arxiv.org/abs/2410.05527
  • open review:https://openreview.net/forum?id=2iYVBqRHK4
  • 来源:合作者推荐的文章。
  • 主要内容:
    • preference-based index policy(?)
  • whittle index,一个结论,两个等价条件,经典问题的证明方式。

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

  • 来源:师兄的文章。

Data Center Cooling System Optimization Using Offline Reinforcement Learning

  • arxiv:https://arxiv.org/pdf/2501.15085
  • 来源:xianyuan zhan 组的新文章。
  • 主要内容:
    • T-symmetry。

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

  • arxiv:https://arxiv.org/abs/2407.04752
  • 来源:师兄推荐的神秘文章,ICLR 2025 poster。

Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment

  • arxiv:https://arxiv.org/abs/2410.23680
  • 来源:偶然看到的文章。

Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

  • arxiv:https://arxiv.org/abs/2505.21067
  • 来源:偶然看到的文章。

Thinkless: LLM Learns When to Think

  • arxiv:https://arxiv.org/abs/2505.13379
  • 来源:偶然看到的文章。

Learning to Reason without External Rewards

  • arxiv:https://arxiv.org/abs/2505.19590
  • 来源:偶然看到的文章。


http://www.jsqmd.com/news/116178/

相关文章:

  • 51c扩散模型~合集5
  • MP4 Downloader Pro(MP4下载器)
  • 解析 `React Native New Architecture`:如何通过 Codegen 保证 JS 层与 C++ 层的类型安全性?
  • 【气动学】弹道舱和升力飞行器大气再入研究附Matlab复现
  • 基于python的智慧医疗医院设备采购入库系统_04bdn7n2--论文
  • Tampermonkey
  • 基于Chromium的隐私优先浏览器
  • 【前推回代法】含有分布式电源的三相不平衡配电网潮流计算【IEEE33节点】附Matlab代码
  • idea多模块项目运行设置
  • 基于python的企业员工出勤打卡签到系统管理设计与实现_8rxd27hj
  • 熵特征提取算法对比详解:从原理到实战
  • 全球股市估值与海洋微生物能源技术的关系
  • LLMs之RL:《LightSearcher: Efficient DeepSearch via Experiential Memory》翻译与解读
  • OncePower文件批量重命名工具
  • 高性能AI聊天工具
  • 面向对象回顾
  • 解读大数据领域数据产品的架构设计
  • 途知Bilibili多模态数据采集与AI融合解析
  • 在 WebGL 中使用 React:解析 `react-force-graph` 如何将大量节点计算托管给 Worker 而由 React 控制视图
  • 【IEEE 13 节点分配系统中的THD降低】系统的谐波分析给出了各种总线上电流和电压的谐波频谱和THD(Simulink实现)
  • 赛生新
  • 【Ubuntu】Ubuntu虚拟机配置三网段
  • 基于SSM的奶茶店管理系统【源码+文档+调试】
  • 【Koopman】遍历论、动态模态分解和库普曼算子谱特性的计算研究(Matlab代码实现)
  • 事后诸葛亮分析报告
  • Level 7 → Level 8
  • 【MTSP问题】基于鳄鱼伏击算法CAOA求解单仓库多旅行商问题附Matlab代码
  • Unity出安卓包知识点汇总
  • 深入 React 源码中的 ‘Flags’ 位掩码:引擎如何通过一个整数记录 Fiber 节点的所有待执行操作?
  • windows 使用 cmake 方式源码编译 SDL2