ICLR 2025 | HiPRAG:不是让 Agent RAG 搜得更多,而是让它学会什么时候不该搜
这篇论文最值得注意的地方,不是它又提出了一个更复杂的 Agentic RAG 框架,而是它抓住了一个在很多搜索型智能体里都很真实、但又经常被忽略的问题:
很多系统的问题,不是不会搜索,而是不会“合理地搜索”。
也就是说,问题不一定出在“搜不到”,而常常出在两端:
- 明明已经知道了,还要继续搜
- 明明不知道,却不去搜,直接硬答
HiPRAG 的核心贡献,就是把这两种低效行为明确拿出来,并且不再只靠最终答案对不对来训练,而是把搜索过程本身变成强化学习要优化的对象。
- 论文:HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval-Augmented Generation
- 论文地址:https://arxiv.org/abs/2510.07794
- 代码仓库:https://github.com/qualidea1217/HiPRAG
一、为什么 Agentic RAG 还需要继续优化?
传统 RAG 往往是“检索一次,再让模型回答”。而 Agentic RAG 更进一步,它让模型在推理过程中自己决定:
- 要不要搜索
- 搜什么
- 搜完之后如何继续想
这个方向当然更强,但也更容易暴露问题。因为一旦把“搜索决策权”交给模型,系统就不只是一个会生成答案的模型了,而是一个会不断做局部决策的智能体。
这时,最终答对与否只是表面现象。真正决定系统效率和可靠性的,是中间那一连串小决策:这一小步该不该搜,这一步搜的是不是多余,这一步不搜会不会出错。
HiPRAG 正是从这里切入。它的核心判断非常清楚:
搜索能力不只是
