当前位置: 首页 > news >正文

rag检索增强生成

文章目录

    • RAG
      • rag主要用到哪些技术
      • rag中的主要指标
    • rag系统的效果及指标
        • 1、检索质量指标
        • 2、生成质量指标
        • 3、系统性能指标
    • 指标示例
        • 指标示例-1、检索质量指标
        • 指标示例-2、生成质量指标
        • 指标示例-3、系统性能指标

RAG

RAG(retrieval augmented generation)(检索增强生成)。

是目前应用最多,最可实现的一种方案。

rag主要用到哪些技术

1、切片要聪明:别只会按字数切,要按语义/段落切,加 Overlap。
2、检索要混合:向量 + 关键词,缺一不可。
3、结果要重排:加一个 Rerank 模型,是提升准确率性价比最高的手段。

rag中的主要指标

只说查的更准了、更快了、节省token等太low了。

优秀的 RAG 系统 = 高召回 (Recall > 0.9) + 高精排 (Precision > 0.8) + 无幻觉 (Faithfulness > 0.9) + 低延迟 (< 3s)

rag系统的效果及指标

有具体的量化指标。
1、检索质量指标
2、生成质量指标
3、系统性能指标

1、检索质量指标
指标名称含义计算公式/逻辑目标值
Hit Rate @ K
(命中率)
前 K 个检索结果中,至少有一个是正确答案的比例。$ \frac{\text{命中次数}}{\text{总查询数}} $> 0.90
MRR @ K
(平均倒数排名)
衡量第一个正确答案排在哪里。排得越靠前分数越高。$ \frac{1}{N} \sum \frac{1}{\text{rank}_i} $
(若第1个就命中得1分,第3个命中得0.33分)
> 0.80
NDCG @ K
(归一化折损累计增益)
考虑了相关性等级(如:完全相关=3分,部分相关=1分)。不仅看有没有,还看排序质量。复杂的加权求和公式 (业界标准)> 0.85
Context Precision
(上下文精确度)
检索到的内容中,真正有用的信息是否集中在前面?(RAGAS 指标)基于黄金答案中事实的分布计算> 0.80
Context Recall
(上下文召回率)
地面真实答案中的事实,有多少比例出现在了检索到的上下文中?$ \frac{\text{检索到的事实数}}{\text{地面真实事实总数}} $> 0.90
2、生成质量指标
指标名称含义评判逻辑 (由 LLM 判断)目标值
Faithfulness
(忠实度/无幻觉)
生成的答案是否完全基于检索到的上下文?有没有瞎编?“答案中的每个陈述都能在上下文中找到依据吗?”> 0.90 (关键!)
Answer Relevance
(答案相关性)
生成的答案是否直接回答了用户的问题?有没有答非所问?“这个答案是否解决了用户的疑问?”> 0.85
Answer Correctness
(答案正确性)
生成的答案与标准答案 (Ground Truth) 的语义相似度。对比生成答案与标准答案的语义向量距离或事实重叠度。> 0.80
Context Utilization
(上下文利用率)
模型是否有效利用了提供的长上下文?检查模型是否忽略了关键信息。-
3、系统性能指标
指标名称含义测量方法参考标准 (本地/云端)
Latency (端到端延迟)从用户发送请求到收到第一个字 (TTFT) 及完整回答的时间。End_Time - Start_TimeTTFT: < 1s
Total: < 3-5s
Throughput (吞吐量)系统每秒能处理多少个并发请求 (QPS)。压测工具 (如 Locust, JMeter)视硬件而定,需满足业务峰值
Token Cost
(成本)
每次问答消耗的 Input/Output Token 数量及金额。统计日志中的 Token 用量越低越好 (优化切片长度可降低成本)
Error Rate
(错误率)
检索失败、超时、模型报错的比例。$ \frac{\text{失败请求数}}{\text{总请求数}} $< 0.1%
Index Freshness
(数据新鲜度)
新文档上传后,多久能被检索到。记录上传时间戳与可检索时间戳的差值分钟级 或 秒级

指标示例

1、检索质量指标
核心逻辑:强调从“纯向量”到“混合检索+重排序”的显著提升。
2、生成质量指标
3、系统性能指标

指标示例-1、检索质量指标
场景/优化前优化后目标值 (简历写法)简历话术示例 (可以直接抄)
命中率 (Hit Rate @ 5)
(原: 65%)
88% - 92%“引入混合检索 (Hybrid Search) 策略,将 Top-5 召回命中率从 65% 提升至 89%,有效解决了专有名词和代码片段检索丢失的问题。”
平均倒数排名 (MRR @ 5)
(原: 0.45)
0.75 - 0.82“部署 BGE-Reranker 重排序模型,将关键文档的平均排名 (MRR@5) 从 0.45 优化至 0.78,确保最相关信息始终位于上下文窗口前列。”
上下文精确度 (Context Precision)
(原: 0.50)
0.80 - 0.85“通过优化切片策略(父子索引)及重排序,将 RAGAS Context Precision 指标提升至 0.83,大幅减少了无关噪声对大模型的干扰。”
长尾问题召回率提升 40%+“针对复杂多跳查询,设计查询重写 (Query Rewriting) 模块,使长尾问题的检索召回率相对提升 42%。”
指标示例-2、生成质量指标
场景/优化前优化后目标值 (简历写法)简历话术示例 (可以直接抄)
忠实度/无幻觉 (Faithfulness)
(原: 0.65)
0.88 - 0.93“构建基于 RAGAS 的自动化评估流水线,通过提示词工程优化及严格上下文约束,将模型回答的 Faithfulness (无幻觉率) 从 0.65 稳定在 0.91。”
答案相关性 (Answer Relevance)
(原: 0.70)
0.85 - 0.90“优化生成端 Prompt 模板,引入‘思维链 (CoT)’机制,使 Answer Relevance 评分提升至 0.88,显著减少答非所问的情况。”
答案正确率 (Answer Correctness)
(原: 60%)
82% - 86%“在垂直领域测试集(500+ 用例)上,系统最终 答案语义正确率达到 85%,满足生产环境交付标准。”
用户满意度 (隐式指标)4.6 / 5.0“上线后收集用户反馈,点赞率 (Thumbs-up Rate) 达到 92%,平均用户评分 4.6/5.0。”
指标示例-3、系统性能指标
场景/配置优化后目标值 (简历写法)简历话术示例 (可以直接抄)
首字延迟 (TTFT)
(原: 2.5s)
< 800ms“通过 vLLM 推理加速及缓存策略优化,将首字生成时间 (TTFT) 从 2.5s 降低至 600ms,实现类人流畅交互体验。”
端到端响应时间
(原: 8s)
< 2.5s“优化检索链路并行处理及切片粒度,将平均端到端响应时间控制在 2.2秒 以内 (P95 < 3s)。”
并发吞吐量 (QPS)20 - 50 QPS
(单卡/小集群)
“设计异步检索架构,在单张 A10/A800 显卡支持下,系统稳定支撑 35 QPS 的并发请求,满足业务高峰期需求。”
成本优化降低 40% - 60%“通过引入小模型重排序及动态切片策略,减少无效 Token 输入,使单次问答的 Token 消耗成本降低 55%。”
数据新鲜度< 1 分钟“搭建实时数据管道,实现新文档上传后 30秒内 完成解析、向量化并可被检索,保障信息时效性。”
http://www.jsqmd.com/news/538774/

相关文章:

  • (工程_前端)react快速入门
  • 别再只盯着采样率了!用STM32H723的ADC做高精度FFT分析,这些坑我帮你踩过了
  • Grammarly高级版免费使用全攻略:自动Cookie获取工具详解
  • 你也想转行网安吗?作为过来人的我希望你想清楚这几个问题再做决定
  • 李宏毅机器学习深度学习笔记-2021-全-
  • Unity Figma Bridge终极指南:3步实现设计到游戏的完美转换 [特殊字符]
  • ESP-Drone技术深度解析:三步实现专业级开源无人机飞控系统
  • Blender 3MF插件终极指南:轻松实现3D打印模型导入导出
  • Cesium(十一) 底图瓦片颜色切换、自定义底图瓦片颜色 终极解决方案
  • Windows11静态路由配置全攻略:从临时到永久,手把手教你搞定跨网段访问
  • 李宏毅机器学习深度学习笔记-2026-全-
  • 【亲测OpenClaw部署流程】2026年OpenClaw华为云4分钟安装喂饭级教程
  • AI辅助设计效率提升:Illustrator对象智能替换全攻略
  • 如何通过智能辅助提升英雄联盟游戏体验?探索League Toolkit的实用价值
  • 企业级实验室信息管理系统:SENAITE LIMS 实战深度解析与部署指南
  • PostgreSQL表空间实战:如何像管理‘云盘分区’一样优化你的数据库存储(附创建、授权、迁移步骤)
  • 项目介绍 MATLAB实现基于强制导向函数法(PFA)进行无人机三维路径规划的详细项目实例(含模型描述及部分示例代码)还请多多点一下关注 加油 谢谢 你的鼓励是我前行的动力 谢谢支持 加油 谢谢
  • Linux开发学习第六天——进程内存模型、状态
  • OpenClaw个人健康助手:GLM-4.7-Flash分析健康数据实践
  • 李宏毅生成式人工智能导论笔记-2024-全-
  • 如何用NVIDIA CUDA加速Gprmax 3.0电磁波模拟?保姆级配置指南
  • 从依赖到自主:手写一个 ICO 文件转换器
  • 零基础调试OpenClaw:nanobot镜像常见报错解决方案
  • 答辩 PPT 高效通关手册:Paperzz AI PPT 让本科生告别熬夜赶稿
  • PortProxyGUI:Windows端口转发的图形化管理工具
  • 别再手动标点了!用Python解析无人机JPG照片,自动获取图上任意点的GPS坐标
  • PDPS16.0单机版安装避坑指南:如何避免SPLMLicenseServer与NX/UG的许可证冲突
  • 英雄联盟工具集League Akari:5个简单步骤快速解决启动失败问题
  • MATLAB通信仿真避坑指南:手把手教你画16PAM/PSK/QAM/CQAM星座图与误码率曲线
  • BACnet vs Modbus TCP vs KNX:三大楼宇协议混用时的5个致命坑及规避方案