当前位置: 首页 > news >正文

如何对参考RAG生成的内容做效果评估,非常详细建议收藏

我们在构建agent的过程,经常会在上下文中引入rag的检索内容来辅助最后的生成结果,我们假设底座大模型不变,在引入rag结果和没有引入rag结果的效果如何评测,这是一个关键问题

那么如何来更好的评测rag的效果呢,我整理和调研了业界的一些主流评估rag的方法,分享下

目前主流的评估框架有这么几个

1. RAGAS (Retrieval Augmented Generation Assessment)
  • 核心特点: 业界最流行的无参考评估框架
  • 评估维度:
  • 检索质量指标:
  • Context Precision (上下文精度): 检索内容的准确性
  • Context Recall (上下文召回): 是否检索到所有必要信息
  • Context Relevancy (上下文相关性): 检索内容与查询的相关程度
  • 生成质量指标:
  • Faithfulness (忠实度): 生成内容是否基于检索上下文,无幻觉
  • Answer Relevancy (答案相关性): 生成答案与问题的相关性
  • Noise Sensitivity (噪声敏感度): 对无关信息的抗干扰能力
2. DeepEval
  • 特色: 开源、5行代码即可实现SOTA级RAG评估
  • 核心指标:
  • Retriever评估: Contextual Recall, Precision, Relevancy
  • Generator评估: Faithfulness, Answer Relevancy
  • 支持端到端评估和组件级评估

可以看到主流的评估维度主要是两大类维度,一个是检索质量、一个是生成质量、还有一个很重要,也就是端到端的性能,这个是什么意思, 我理解就是最终用户从提问到最后生成,对内容的满意或者采纳的比例

  1. 检索质量 (占比30-40%)
  • 检索准确性: 是否找到真正相关的文档
  • 检索覆盖度: 是否覆盖回答所需的全部信息
  • 检索效率: 检索速度和成本
  1. 生成质量 (占比40-50%)
  • 事实准确性: 生成内容是否准确无幻觉
  • 内容相关性: 是否切题
  • 文本流畅度: 可读性和连贯性
  1. 端到端性能 (占比20-30%)
  • 整体答案质量
  • 用户满意度
  • 任务完成度
评估方法

自动化评估:

  • LLM-as-Judge: 使用更强大的LLM作为评判者
  • GPT-4作为裁判模型
  • 定义评分标准(1-5分)
  • 对多个维度打分(专业性、准确性、相关性等)
  • 基于指标的评估:
  • 使用预定义指标自动计算分数
  • RAGAS、DeepEval等框架提供的自动化评估

人工评估:

  • 领域专家打分 计算GSB
  • 对比式评估(A/B Testing)
  • 综合评估维度: Coverage, Consistency, Correctness, Clarity

重要RAG评估论文推荐

1.综述类论文

“Evaluation of Retrieval-Augmented Generation: A Survey” (arxiv 2405.07437)

  • 全面梳理RAG评估方法和benchmark
  • 分析现有评估工具的优缺点
  • 提出统一的RAG评估流程(Auepora)

“Retrieval Augmented Generation Evaluation in the Era of Large Language Models” (arxiv 2504.14891)

  • 2024年最新综述
  • 系统回顾传统和新兴评估方法
  • 重点讨论LLM时代的RAG评估挑战

“Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets” (arxiv 2504.20119)

  • 系统分析63篇学术论文
  • 聚焦LLM作为评估工具的可信度
  • 讨论自动化评估与人工判断的平衡

“A Comprehensive Survey of Retrieval-Augmented Generation (RAG) Evaluation and Benchmarks”

  • 从信息检索和LLM双重视角评估RAG
  • 三维度分析: Retriever评估、Indexing评估、Generator评估
2.Benchmark论文

“RAGAS: Automated Evaluation of Retrieval Augmented Generation” (arxiv 2309.15217)

  • 提出无参考评估框架
  • 核心指标: Faithfulness, Answer Relevancy, Context Precision/Recall
  • 已成为业界标准

“CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation”

  • 首个全面的中文RAG评估基准
  • 创新性地将RAG场景分为增删改查(CRUD)四类:
  • Create(创): 文本续写
  • Read(查): 单文档/多文档问答
  • Update(改): 幻觉纠正
  • Delete(删): 多文档摘要
  • 提出RAGQuestEval指标评估关键信息捕获能力

“RGB Benchmark”

  • 标准化RAG评估数据集
  • 多任务评估支持
3.方法论论文

“Benchmarking Large Language Models in Retrieval-Augmented Generation”

  • 系统研究RAG对LLM的影响
  • 多模型对比实验

“RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation”

  • 细粒度诊断框架
  • 检索和生成的详细分析方法

01

什么是AI大模型应用开发工程师?

如果说AI大模型是蕴藏着巨大能量的“后台超级能力”,那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。

AI大模型应用开发工程师是基于AI大模型,设计开发落地业务的应用工程师。

这个职业的核心价值,在于打破技术与用户之间的壁垒,把普通人难以理解的算法逻辑、模型参数,转化为人人都能轻松操作的产品形态。

无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能,还是办公场景中的自动记账工具、会议记录用的语音转文字APP,这些看似简单的应用背后,都是应用开发工程师在默默搭建技术与需求之间的桥梁。

他们不追求创造全新的大模型,而是专注于让已有的大模型“听懂”业务需求,“学会”解决具体问题,最终形成可落地、可使用的产品。

CSDN粉丝独家福利

给大家整理了一份AI大模型全套学习资料,这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取【保证100%免费】

02

AI大模型应用开发工程师的核心职责

需求分析与拆解是工作的起点,也是确保开发不偏离方向的关键。

应用开发工程师需要直接对接业务方,深入理解其核心诉求——不仅要明确“要做什么”,更要厘清“为什么要做”以及“做到什么程度算合格”。

在此基础上,他们会将模糊的业务需求拆解为具体的技术任务,明确每个环节的执行标准,并评估技术实现的可行性,同时定义清晰的核心指标,为后续开发、测试提供依据。

这一步就像建筑前的图纸设计,若出现偏差,后续所有工作都可能白费。

技术选型与适配是衔接需求与开发的核心环节。

工程师需要根据业务场景的特点,选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同,选型的合理性直接影响最终产品的表现。

同时,他们还要对行业相关数据进行预处理,通过提示词工程优化模型输出,或在必要时进行轻量化微调,让基础模型更好地适配具体业务。

此外,设计合理的上下文管理规则确保模型理解连贯需求,建立敏感信息过滤机制保障数据安全,也是这一环节的重要内容。

应用开发与对接则是将方案转化为产品的实操阶段。

工程师会利用选定的开发框架构建应用的核心功能,同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通,确保数据流转顺畅。

在这一过程中,他们还需要配合设计团队打磨前端交互界面,让技术功能以简洁易懂的方式呈现给用户,实现从技术方案到产品形态的转化。

测试与优化是保障产品质量的关键步骤。

工程师会开展全面的功能测试,找出并修复开发过程中出现的漏洞,同时针对模型的响应速度、稳定性等性能指标进行优化。

安全合规性也是测试的重点,需要确保应用符合数据保护、隐私安全等相关规定。

此外,他们还会收集用户反馈,通过调整模型参数、优化提示词等方式持续提升产品体验,让应用更贴合用户实际使用需求。

部署运维与迭代则贯穿产品的整个生命周期。

工程师会通过云服务器或私有服务器将应用部署上线,并实时监控运行状态,及时处理突发故障,确保应用稳定运行。

随着业务需求的变化,他们还需要对应用功能进行迭代更新,同时编写完善的开发文档和使用手册,为后续的维护和交接提供支持。

03

薪资情况与职业价值

市场对这一职业的高度认可,直接体现在薪资待遇上。

据猎聘最新在招岗位数据显示,AI大模型应用开发工程师的月薪最高可达60k。

在AI技术加速落地的当下,这种“技术+业务”的复合型能力尤为稀缺,让该职业成为当下极具吸引力的就业选择。

AI大模型应用开发工程师是AI技术落地的关键桥梁。

他们用专业能力将抽象的技术转化为具体的产品,让大模型的价值真正渗透到各行各业。

随着AI场景化应用的不断深化,这一职业的重要性将更加凸显,也必将吸引更多人才投身其中,推动AI技术更好地服务于社会发展。

CSDN粉丝独家福利

给大家整理了一份AI大模型全套学习资料,这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取【保证100%免费】

http://www.jsqmd.com/news/457397/

相关文章:

  • AutoDock-Vina:重新定义分子对接效率的计算生物学解决方案
  • 2026年市场观察:风管品质与共板法兰厂家实力关联,共板法兰风管/焊接风管/通风管道/角钢法兰风管,风管源头厂家排行 - 品牌推荐师
  • 腾讯云轻量应用服务器|新手友好易上手
  • 持续学习代理的终极方案:从提示压缩到CIM架构的演进之路
  • 收藏!2026大模型转行全攻略:小白/文科生零门槛入局指南(附校招/求职避坑)
  • 4大维度解决视频PPT提取难题:extract-video-ppt让课件整理效率提升8倍
  • 金三银四网安市场爆了!年薪40万不是梦,这4个岗位最缺人,2025网络安全就业指南
  • 革新性手柄映射工具:AntiMicroX让每款PC游戏都能适配手柄
  • 金融大模型爆发!587个项目15亿中标额背后,监管风暴已至?解析
  • 分析2026年湖北监控塔厂家排名,找出性价比之王 - 工业设备
  • 从零到精通:AI大模型学习路线图_AI大模型学习路线(非常详细)收藏这一篇就够了
  • 网络安全前景大好,“金三银四”这些职位成了“香饽饽”
  • android app需要建立一个专门的拉黑数据表+专门的拉黑列表+解除拉黑的页面
  • 避坑!2026口碑封神的GEO优化公司盘点,企业实测不踩雷 - 品牌测评鉴赏家
  • 3个步骤打造FOC轮腿机器人:从零件选型到自主行走的开源DIY指南
  • 2026年垃圾站除臭厂家推荐排行榜:脉冲电浆/离子/高压喷雾除臭技术,专业解决垃圾中转站与垃圾房异味难题 - 品牌企业推荐师(官方)
  • 2026年安徽电力构架安装生产厂推荐,哪个口碑好 - 工业品牌热点
  • 网安人的金三银四来了,你收了几个offer?网络安全面试经验汇总必看好文!
  • TCM-DiffRAG: 基于知识图谱和思维链的中医个性化辨证论治推理方法
  • 电子万能试验机哪个品牌好?4大推荐品牌与靠谱生产厂家选购指南 - 品牌推荐大师
  • 2026年口碑好的国际物流品牌推荐,细聊捷运达美国清关靠谱吗 - 工业品网
  • 【无标题】超详细的常见漏洞代码审计方法,网络安全必看的零基础入门到精通教程!
  • 9倍效率提升:抖音视频批量下载的全链路解决方案
  • HSTracker:macOS炉石传说智能辅助工具,提升对战决策效率
  • 推荐一下适合佛山企业的AI营销推广公司,光合道GEO值得选吗? - myqiye
  • 轻量级Ollama本地部署指南:零基础可视化管理工具实操手册
  • 2026全国十大摄影职业培训学校推荐排行榜:短视频剪辑/IP运营/AI摄影培训哪家好 - 深度智识库
  • 2026年全国靠谱的UPS电源供应机构排行,费用怎么算 - 工业推荐榜
  • 天虹购物卡回收如何秒变红包,附回收全过程 - 京回收小程序
  • OpenVINO AI插件:革新性音频智能处理技术解析与实践指南