当前位置：首页 > news >正文

如何对参考RAG生成的内容做效果评估，非常详细建议收藏

news 2026/7/22 4:53:58

我们在构建agent的过程，经常会在上下文中引入rag的检索内容来辅助最后的生成结果，我们假设底座大模型不变，在引入rag结果和没有引入rag结果的效果如何评测，这是一个关键问题

那么如何来更好的评测rag的效果呢，我整理和调研了业界的一些主流评估rag的方法，分享下

目前主流的评估框架有这么几个

1. RAGAS (Retrieval Augmented Generation Assessment)

核心特点: 业界最流行的无参考评估框架
评估维度:

检索质量指标:

Context Precision (上下文精度): 检索内容的准确性
Context Recall (上下文召回): 是否检索到所有必要信息
Context Relevancy (上下文相关性): 检索内容与查询的相关程度

生成质量指标:

Faithfulness (忠实度): 生成内容是否基于检索上下文,无幻觉
Answer Relevancy (答案相关性): 生成答案与问题的相关性
Noise Sensitivity (噪声敏感度): 对无关信息的抗干扰能力

2. DeepEval

特色: 开源、5行代码即可实现SOTA级RAG评估
核心指标:

Retriever评估: Contextual Recall, Precision, Relevancy
Generator评估: Faithfulness, Answer Relevancy
支持端到端评估和组件级评估

可以看到主流的评估维度主要是两大类维度，一个是检索质量、一个是生成质量、还有一个很重要，也就是端到端的性能，这个是什么意思，我理解就是最终用户从提问到最后生成，对内容的满意或者采纳的比例

检索质量 (占比30-40%)

检索准确性: 是否找到真正相关的文档
检索覆盖度: 是否覆盖回答所需的全部信息
检索效率: 检索速度和成本

生成质量 (占比40-50%)

事实准确性: 生成内容是否准确无幻觉
内容相关性: 是否切题
文本流畅度: 可读性和连贯性

端到端性能 (占比20-30%)

整体答案质量
用户满意度
任务完成度

评估方法

自动化评估:

LLM-as-Judge: 使用更强大的LLM作为评判者

GPT-4作为裁判模型
定义评分标准(1-5分)
对多个维度打分(专业性、准确性、相关性等)

基于指标的评估:

使用预定义指标自动计算分数
RAGAS、DeepEval等框架提供的自动化评估

人工评估:

领域专家打分计算GSB
对比式评估(A/B Testing)
综合评估维度: Coverage, Consistency, Correctness, Clarity

重要RAG评估论文推荐

1.综述类论文

“Evaluation of Retrieval-Augmented Generation: A Survey” (arxiv 2405.07437)

全面梳理RAG评估方法和benchmark
分析现有评估工具的优缺点
提出统一的RAG评估流程(Auepora)

“Retrieval Augmented Generation Evaluation in the Era of Large Language Models” (arxiv 2504.14891)

2024年最新综述
系统回顾传统和新兴评估方法
重点讨论LLM时代的RAG评估挑战

“Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets” (arxiv 2504.20119)

系统分析63篇学术论文
聚焦LLM作为评估工具的可信度
讨论自动化评估与人工判断的平衡

“A Comprehensive Survey of Retrieval-Augmented Generation (RAG) Evaluation and Benchmarks”

从信息检索和LLM双重视角评估RAG
三维度分析: Retriever评估、Indexing评估、Generator评估

2.Benchmark论文

“RAGAS: Automated Evaluation of Retrieval Augmented Generation” (arxiv 2309.15217)

提出无参考评估框架
核心指标: Faithfulness, Answer Relevancy, Context Precision/Recall
已成为业界标准

“CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation”

首个全面的中文RAG评估基准
创新性地将RAG场景分为增删改查(CRUD)四类:

Create(创): 文本续写
Read(查): 单文档/多文档问答
Update(改): 幻觉纠正
Delete(删): 多文档摘要

提出RAGQuestEval指标评估关键信息捕获能力

“RGB Benchmark”

标准化RAG评估数据集
多任务评估支持

3.方法论论文

“Benchmarking Large Language Models in Retrieval-Augmented Generation”

系统研究RAG对LLM的影响
多模型对比实验

“RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation”

细粒度诊断框架
检索和生成的详细分析方法

什么是AI大模型应用开发工程师？

如果说AI大模型是蕴藏着巨大能量的“后台超级能力”，那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。

AI大模型应用开发工程师是基于AI大模型，设计开发落地业务的应用工程师。

这个职业的核心价值，在于打破技术与用户之间的壁垒，把普通人难以理解的算法逻辑、模型参数，转化为人人都能轻松操作的产品形态。

无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能，还是办公场景中的自动记账工具、会议记录用的语音转文字APP，这些看似简单的应用背后，都是应用开发工程师在默默搭建技术与需求之间的桥梁。

他们不追求创造全新的大模型，而是专注于让已有的大模型“听懂”业务需求，“学会”解决具体问题，最终形成可落地、可使用的产品。

CSDN粉丝独家福利

给大家整理了一份AI大模型全套学习资料，这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取【保证100%免费】

AI大模型应用开发工程师的核心职责

需求分析与拆解是工作的起点，也是确保开发不偏离方向的关键。

应用开发工程师需要直接对接业务方，深入理解其核心诉求——不仅要明确“要做什么”，更要厘清“为什么要做”以及“做到什么程度算合格”。

在此基础上，他们会将模糊的业务需求拆解为具体的技术任务，明确每个环节的执行标准，并评估技术实现的可行性，同时定义清晰的核心指标，为后续开发、测试提供依据。

这一步就像建筑前的图纸设计，若出现偏差，后续所有工作都可能白费。

技术选型与适配是衔接需求与开发的核心环节。

工程师需要根据业务场景的特点，选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同，选型的合理性直接影响最终产品的表现。

同时，他们还要对行业相关数据进行预处理，通过提示词工程优化模型输出，或在必要时进行轻量化微调，让基础模型更好地适配具体业务。

此外，设计合理的上下文管理规则确保模型理解连贯需求，建立敏感信息过滤机制保障数据安全，也是这一环节的重要内容。

应用开发与对接则是将方案转化为产品的实操阶段。

工程师会利用选定的开发框架构建应用的核心功能，同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通，确保数据流转顺畅。

在这一过程中，他们还需要配合设计团队打磨前端交互界面，让技术功能以简洁易懂的方式呈现给用户，实现从技术方案到产品形态的转化。

测试与优化是保障产品质量的关键步骤。

工程师会开展全面的功能测试，找出并修复开发过程中出现的漏洞，同时针对模型的响应速度、稳定性等性能指标进行优化。

安全合规性也是测试的重点，需要确保应用符合数据保护、隐私安全等相关规定。

此外，他们还会收集用户反馈，通过调整模型参数、优化提示词等方式持续提升产品体验，让应用更贴合用户实际使用需求。

部署运维与迭代则贯穿产品的整个生命周期。

工程师会通过云服务器或私有服务器将应用部署上线，并实时监控运行状态，及时处理突发故障，确保应用稳定运行。

随着业务需求的变化，他们还需要对应用功能进行迭代更新，同时编写完善的开发文档和使用手册，为后续的维护和交接提供支持。

薪资情况与职业价值

市场对这一职业的高度认可，直接体现在薪资待遇上。

据猎聘最新在招岗位数据显示，AI大模型应用开发工程师的月薪最高可达60k。

在AI技术加速落地的当下，这种“技术+业务”的复合型能力尤为稀缺，让该职业成为当下极具吸引力的就业选择。

AI大模型应用开发工程师是AI技术落地的关键桥梁。

他们用专业能力将抽象的技术转化为具体的产品，让大模型的价值真正渗透到各行各业。

随着AI场景化应用的不断深化，这一职业的重要性将更加凸显，也必将吸引更多人才投身其中，推动AI技术更好地服务于社会发展。

CSDN粉丝独家福利

查看全文

http://www.jsqmd.com/news/457397/

AutoDock-Vina：重新定义分子对接效率的计算生物学解决方案

2026年市场观察：风管品质与共板法兰厂家实力关联，共板法兰风管/焊接风管/通风管道/角钢法兰风管，风管源头厂家排行 - 品牌推荐师

腾讯云轻量应用服务器｜新手友好易上手

持续学习代理的终极方案：从提示压缩到CIM架构的演进之路

收藏！2026大模型转行全攻略：小白/文科生零门槛入局指南（附校招/求职避坑）

4大维度解决视频PPT提取难题：extract-video-ppt让课件整理效率提升8倍

金三银四网安市场爆了！年薪40万不是梦，这4个岗位最缺人，2025网络安全就业指南

革新性手柄映射工具：AntiMicroX让每款PC游戏都能适配手柄

金融大模型爆发！587个项目15亿中标额背后，监管风暴已至？解析

分析2026年湖北监控塔厂家排名，找出性价比之王 - 工业设备

从零到精通：AI大模型学习路线图_AI大模型学习路线（非常详细）收藏这一篇就够了

网络安全前景大好，“金三银四”这些职位成了“香饽饽”

android app需要建立一个专门的拉黑数据表+专门的拉黑列表+解除拉黑的页面

避坑！2026口碑封神的GEO优化公司盘点，企业实测不踩雷 - 品牌测评鉴赏家

3个步骤打造FOC轮腿机器人：从零件选型到自主行走的开源DIY指南

2026年安徽电力构架安装生产厂推荐，哪个口碑好 - 工业品牌热点

网安人的金三银四来了，你收了几个offer？网络安全面试经验汇总必看好文！

TCM-DiffRAG: 基于知识图谱和思维链的中医个性化辨证论治推理方法

电子万能试验机哪个品牌好？4大推荐品牌与靠谱生产厂家选购指南 - 品牌推荐大师

2026年口碑好的国际物流品牌推荐，细聊捷运达美国清关靠谱吗 - 工业品网

【无标题】超详细的常见漏洞代码审计方法，网络安全必看的零基础入门到精通教程！

9倍效率提升：抖音视频批量下载的全链路解决方案

HSTracker：macOS炉石传说智能辅助工具，提升对战决策效率

轻量级Ollama本地部署指南：零基础可视化管理工具实操手册

2026年全国靠谱的UPS电源供应机构排行，费用怎么算 - 工业推荐榜

天虹购物卡回收如何秒变红包，附回收全过程 - 京回收小程序

OpenVINO AI插件：革新性音频智能处理技术解析与实践指南

1. RAGAS (Retrieval Augmented Generation Assessment)

2. DeepEval

评估方法

重要RAG评估论文推荐

1.综述类论文

2.Benchmark论文

3.方法论论文

CSDN粉丝独家福利

CSDN粉丝独家福利

相关文章：