LOONGRL: REINFORCEMENT LEARNING FOR ADVANCED REASONING OVER LONG CONTEXTS粗读
思路不错,RL训练的时候还用短的上下文,比如16k。由于短上下文中存在索引,RL之后模型就在一个短的16k上下文学会了plan-retrieve-reason-recheck的模式。16k上下文上训练完之后,直接扩展到128k上推理,效果就很好。
- 知乎解读: https://zhuanlan.zhihu.com/p/1965557183132467714
- 论文链接: https://arxiv.org/pdf/2510.19363
