69.人工智能实战:RAG 召回评测平台怎么搭?从前期发现答非所问到 Recall@K、MRR 与 NDCG 指标落地
人工智能实战:RAG 召回评测平台怎么搭?从前期发现答非所问到 Recall@K、MRR 与 NDCG 指标落地
一、问题场景:RAG 答错了,但不知道是检索错还是生成错
RAG 系统答错时,很多人第一反应是改 Prompt。
但真实情况经常是:
模型没有看到正确资料。如果检索阶段没召回正确 chunk,生成阶段再强也没用。
我见过一个系统,用户问:
销售客户拜访二线城市住宿费多少?模型回答:
350元排查发现:
retrieved_docs 里根本没有 sales_policy这不是生成问题,而是召回问题。
本文解决的问题是:
如何搭建 RAG 召回评测平台,使用 Recall@K、MRR、NDCG 等指标量化检索质量,避免盲目调 Prompt。