当前位置：首页 > news >正文

rag检索增强生成

news 2026/7/2 9:45:06

RAG(retrieval augmented generation)(检索增强生成)。

是目前应用最多，最可实现的一种方案。

1、切片要聪明：别只会按字数切，要按语义/段落切，加 Overlap。
2、检索要混合：向量 + 关键词，缺一不可。
3、结果要重排：加一个 Rerank 模型，是提升准确率性价比最高的手段。

只说查的更准了、更快了、节省token等太low了。

优秀的 RAG 系统 = 高召回 (Recall > 0.9) + 高精排 (Precision > 0.8) + 无幻觉 (Faithfulness > 0.9) + 低延迟 (< 3s)

有具体的量化指标。
1、检索质量指标
2、生成质量指标
3、系统性能指标

指标名称	含义	计算公式/逻辑	目标值
Hit Rate @ K (命中率)	前 K 个检索结果中，至少有一个是正确答案的比例。	$ \frac{\text{命中次数}}{\text{总查询数}} $	> 0.90
MRR @ K (平均倒数排名)	衡量第一个正确答案排在哪里。排得越靠前分数越高。	$ \frac{1}{N} \sum \frac{1}{\text{rank}_i} $ (若第1个就命中得1分，第3个命中得0.33分)	> 0.80
NDCG @ K (归一化折损累计增益)	考虑了相关性等级（如：完全相关=3分，部分相关=1分）。不仅看有没有，还看排序质量。	复杂的加权求和公式 (业界标准)	> 0.85
Context Precision (上下文精确度)	检索到的内容中，真正有用的信息是否集中在前面？(RAGAS 指标)	基于黄金答案中事实的分布计算	> 0.80
Context Recall (上下文召回率)	地面真实答案中的事实，有多少比例出现在了检索到的上下文中？	$ \frac{\text{检索到的事实数}}{\text{地面真实事实总数}} $	> 0.90

指标名称	含义	评判逻辑 (由 LLM 判断)	目标值
Faithfulness (忠实度/无幻觉)	生成的答案是否完全基于检索到的上下文？有没有瞎编？	“答案中的每个陈述都能在上下文中找到依据吗？”	> 0.90 (关键!)
Answer Relevance (答案相关性)	生成的答案是否直接回答了用户的问题？有没有答非所问？	“这个答案是否解决了用户的疑问？”	> 0.85
Answer Correctness (答案正确性)	生成的答案与标准答案 (Ground Truth) 的语义相似度。	对比生成答案与标准答案的语义向量距离或事实重叠度。	> 0.80
Context Utilization (上下文利用率)	模型是否有效利用了提供的长上下文？	检查模型是否忽略了关键信息。	-

指标名称	含义	测量方法	参考标准 (本地/云端)
Latency (端到端延迟)	从用户发送请求到收到第一个字 (TTFT) 及完整回答的时间。	`End_Time - Start_Time`	TTFT: < 1s Total: < 3-5s
Throughput (吞吐量)	系统每秒能处理多少个并发请求 (QPS)。	压测工具 (如 Locust, JMeter)	视硬件而定，需满足业务峰值
Token Cost (成本)	每次问答消耗的 Input/Output Token 数量及金额。	统计日志中的 Token 用量	越低越好 (优化切片长度可降低成本)
Error Rate (错误率)	检索失败、超时、模型报错的比例。	$ \frac{\text{失败请求数}}{\text{总请求数}} $	< 0.1%
Index Freshness (数据新鲜度)	新文档上传后，多久能被检索到。	记录上传时间戳与可检索时间戳的差值	分钟级或秒级

1、检索质量指标
核心逻辑：强调从“纯向量”到“混合检索+重排序”的显著提升。
2、生成质量指标
3、系统性能指标

场景/优化前	优化后目标值 (简历写法)	简历话术示例 (可以直接抄)
命中率 (Hit Rate @ 5) (原: 65%)	88% - 92%	“引入混合检索 (Hybrid Search) 策略，将 Top-5 召回命中率从 65% 提升至 89%，有效解决了专有名词和代码片段检索丢失的问题。”
平均倒数排名 (MRR @ 5) (原: 0.45)	0.75 - 0.82	“部署 BGE-Reranker 重排序模型，将关键文档的平均排名 (MRR@5) 从 0.45 优化至 0.78，确保最相关信息始终位于上下文窗口前列。”
上下文精确度 (Context Precision) (原: 0.50)	0.80 - 0.85	“通过优化切片策略（父子索引）及重排序，将 RAGAS Context Precision 指标提升至 0.83，大幅减少了无关噪声对大模型的干扰。”
长尾问题召回率	提升 40%+	“针对复杂多跳查询，设计查询重写 (Query Rewriting) 模块，使长尾问题的检索召回率相对提升 42%。”

场景/优化前	优化后目标值 (简历写法)	简历话术示例 (可以直接抄)
忠实度/无幻觉 (Faithfulness) (原: 0.65)	0.88 - 0.93	“构建基于 RAGAS 的自动化评估流水线，通过提示词工程优化及严格上下文约束，将模型回答的 Faithfulness (无幻觉率) 从 0.65 稳定在 0.91。”
答案相关性 (Answer Relevance) (原: 0.70)	0.85 - 0.90	“优化生成端 Prompt 模板，引入‘思维链 (CoT)’机制，使 Answer Relevance 评分提升至 0.88，显著减少答非所问的情况。”
答案正确率 (Answer Correctness) (原: 60%)	82% - 86%	“在垂直领域测试集（500+ 用例）上，系统最终答案语义正确率达到 85%，满足生产环境交付标准。”
用户满意度 (隐式指标)	4.6 / 5.0	“上线后收集用户反馈，点赞率 (Thumbs-up Rate) 达到 92%，平均用户评分 4.6/5.0。”

场景/配置	优化后目标值 (简历写法)	简历话术示例 (可以直接抄)
首字延迟 (TTFT) (原: 2.5s)	< 800ms	“通过 vLLM 推理加速及缓存策略优化，将首字生成时间 (TTFT) 从 2.5s 降低至 600ms，实现类人流畅交互体验。”
端到端响应时间 (原: 8s)	< 2.5s	“优化检索链路并行处理及切片粒度，将平均端到端响应时间控制在 2.2秒以内 (P95 < 3s)。”
并发吞吐量 (QPS)	20 - 50 QPS (单卡/小集群)	“设计异步检索架构，在单张 A10/A800 显卡支持下，系统稳定支撑 35 QPS 的并发请求，满足业务高峰期需求。”
成本优化	降低 40% - 60%	“通过引入小模型重排序及动态切片策略，减少无效 Token 输入，使单次问答的 Token 消耗成本降低 55%。”
数据新鲜度	< 1 分钟	“搭建实时数据管道，实现新文档上传后 30秒内完成解析、向量化并可被检索，保障信息时效性。”