当前位置: 首页 > news >正文

ragas官方文档中文版(二十六)

评估一个简单的 RAG 系统

在本教程中,我们将编写一个简单的评估管道来评估 RAG(检索增强生成,Retrieval-Augmented Generation)系统。本教程结束时,您将学会如何使用评估驱动开发(evaluation-driven development)来评估和迭代 RAG 系统。


我们将从编写一个简单的 RAG 系统开始,该系统从语料库中检索相关文档,并使用 LLM 生成答案。

python -m ragas_examples.rag_eval.rag

接下来,我们将为 RAG 系统编写几个示例查询和预期输出,然后将它们转换为 CSV 文件。

importpandasaspd samples=[{"query":"What is Ragas 0.3?","grading_notes":"- Ragas 0.3 is a library for evaluating LLM applications."},{"query":"How to install Ragas?","grading_notes":"- install from source - install from pip using ragas[examples]"},{"query":"What are the main features of Ragas?","grading_notes":"organised around - experiments - datasets - metrics."}]pd.DataFrame(samples).to_csv("datasets/test_dataset.csv",index=False)

为了评估 RAG 系统的性能,我们将定义一个基于 LLM 的指标,该指标将 RAG 系统的输出与评分标准(grading_notes)进行比较,并据此输出通过(pass)或失败(fail)。

fromragas.metricsimportDiscreteMetric my_metric=DiscreteMetric(name="correctness",prompt="Check if the response contains points mentioned from the grading notes and return 'pass' or 'fail'.\nResponse: {response} Grading Notes: {grading_notes}",allowed_values=["pass","fail"],)

接下来,我们将编写实验循环,在测试数据集上运行 RAG 系统,使用该指标进行评估,并将结果存储在 CSV 文件中。

@experiment()asyncdefrun_experiment(row):response=rag_client.query(row["query"])score=my_metric.score(llm=llm,response=response.get("answer"," "),grading_notes=row["grading_notes"])experiment_view={**row,"response":response.get("answer",""),"score":score.value,"log_file":response.get("logs"," "),}returnexperiment_view

现在,每当您对 RAG 管道进行修改时,都可以运行实验,观察它如何影响 RAG 的性能。

端到端运行示例

  1. 设置 OpenAI API 密钥
export OPENAI_API_KEY="your_openai_api_key"
  1. 运行评估
python -m ragas_examples.rag_eval.evals

完成!您已成功使用 Ragas 运行了首次评估。现在可以通过打开 experiments/experiment_name.csv 文件来查看结果。

http://www.jsqmd.com/news/1062904/

相关文章:

  • DeepSeek-MoE同步税:MoE模型推理中的隐性性能损耗解析
  • 2026年北京配眼镜去哪好?从国贸到望京的配镜路线图 - 配眼镜新资讯
  • MPC5200嵌入式开发套件全解析:从硬件选型到RTOS实战
  • 3分钟掌握pypdf元数据操作:快速读取与修改PDF文档信息的终极指南
  • 终极指南:Transformers-Tutorials中LayoutLMv3实战解析与医疗文档智能抽取
  • Aurora Store终极指南:如何在无Google服务设备上自由下载Android应用
  • AutoMoT:异步Transformer驱动的自动驾驶推理新范式
  • 一手APP拿货质量怎么样?深度拆解平台货源体系、认证资质与800万+店主的真实反馈 - 米諾
  • 2026 沈阳仓储货架厂家推荐:沈北自有厂区、带 ISO9001 认证源头工厂哪家售后完善? - 米諾
  • OpenCore Legacy Patcher五步终极指南:让老旧Mac重获新生的完整解决方案
  • 大模型推理瓶颈识别与渐进式提示框架PieceHint的设计与实践
  • Pixelle-Video:当创作从技术操作演变为思想表达
  • N_m3u8DL-RE流媒体下载终极指南:三步搞定加密HLS/DASH视频
  • 浦东装修哪家靠谱?2026 住户真实口碑家装综合盘点 - 装修新知
  • 无训练图像编辑:基于扩散模型特征混合的文本引导图像修改技术
  • 实战指南:如何用TradingAgents-CN构建AI驱动的智能股票分析系统
  • 2026实测石家庄5家搬家公司,乐享才是普通人搬家首选 - 幸福生活序曲
  • 工控系统防御伪装成合法软件的银行木马攻击实战指南
  • OpenCore Legacy Patcher技术深度探索:逆向工程突破苹果硬件兼容性限制
  • Java开发团队协作:提高开发效率和质量
  • 从零开始构建你的AI股票分析大脑:TradingAgents-CN完全指南
  • LSPatch完整指南:如何在Android 9+设备上免Root使用Xposed模块?
  • 国内主流模内注塑企业性价比排行 核心维度实测对比 - 起跑123
  • 大模型端侧推理底层解密:ggml-vulkan 极致的矩阵乘法优化路线
  • 2026武汉江诗丹顿名表回收指南,验表知识+避坑技巧全整理 - 名奢变现站
  • 百度网盘秒传链接工具:重新定义文件分享的智能解决方案
  • 语言思维与非语言思维、概念隐喻多层观
  • AI与大模型新闻日报 | 2026-06-22
  • 用多模型 AI 辅助排查接口超时:从日志分析到测试用例补全
  • 如何用Akagi麻将AI助手3分钟提升你的麻将水平:从新手到高手的完整指南