当前位置：首页 > news >正文

ragas官方文档中文版（二十六）

news 2026/6/22 18:50:17

评估一个简单的 RAG 系统

在本教程中，我们将编写一个简单的评估管道来评估 RAG（检索增强生成，Retrieval-Augmented Generation）系统。本教程结束时，您将学会如何使用评估驱动开发（evaluation-driven development）来评估和迭代 RAG 系统。

我们将从编写一个简单的 RAG 系统开始，该系统从语料库中检索相关文档，并使用 LLM 生成答案。

python -m ragas_examples.rag_eval.rag

接下来，我们将为 RAG 系统编写几个示例查询和预期输出，然后将它们转换为 CSV 文件。

importpandasaspd samples=[{"query":"What is Ragas 0.3?","grading_notes":"- Ragas 0.3 is a library for evaluating LLM applications."},{"query":"How to install Ragas?","grading_notes":"- install from source - install from pip using ragas[examples]"},{"query":"What are the main features of Ragas?","grading_notes":"organised around - experiments - datasets - metrics."}]pd.DataFrame(samples).to_csv("datasets/test_dataset.csv",index=False)

为了评估 RAG 系统的性能，我们将定义一个基于 LLM 的指标，该指标将 RAG 系统的输出与评分标准（grading_notes）进行比较，并据此输出通过（pass）或失败（fail）。

fromragas.metricsimportDiscreteMetric my_metric=DiscreteMetric(name="correctness",prompt="Check if the response contains points mentioned from the grading notes and return 'pass' or 'fail'.\nResponse: {response} Grading Notes: {grading_notes}",allowed_values=["pass","fail"],)

接下来，我们将编写实验循环，在测试数据集上运行 RAG 系统，使用该指标进行评估，并将结果存储在 CSV 文件中。

@experiment()asyncdefrun_experiment(row):response=rag_client.query(row["query"])score=my_metric.score(llm=llm,response=response.get("answer"," "),grading_notes=row["grading_notes"])experiment_view={**row,"response":response.get("answer",""),"score":score.value,"log_file":response.get("logs"," "),}returnexperiment_view

现在，每当您对 RAG 管道进行修改时，都可以运行实验，观察它如何影响 RAG 的性能。

端到端运行示例

设置 OpenAI API 密钥

export OPENAI_API_KEY="your_openai_api_key"

运行评估

python -m ragas_examples.rag_eval.evals

完成！您已成功使用 Ragas 运行了首次评估。现在可以通过打开 experiments/experiment_name.csv 文件来查看结果。

查看全文

http://www.jsqmd.com/news/1062904/

DeepSeek-MoE同步税：MoE模型推理中的隐性性能损耗解析

2026年北京配眼镜去哪好？从国贸到望京的配镜路线图 - 配眼镜新资讯

MPC5200嵌入式开发套件全解析：从硬件选型到RTOS实战

3分钟掌握pypdf元数据操作：快速读取与修改PDF文档信息的终极指南

终极指南：Transformers-Tutorials中LayoutLMv3实战解析与医疗文档智能抽取

Aurora Store终极指南：如何在无Google服务设备上自由下载Android应用

AutoMoT：异步Transformer驱动的自动驾驶推理新范式

一手APP拿货质量怎么样？深度拆解平台货源体系、认证资质与800万+店主的真实反馈 - 米諾

OpenCore Legacy Patcher五步终极指南：让老旧Mac重获新生的完整解决方案

大模型推理瓶颈识别与渐进式提示框架PieceHint的设计与实践

Pixelle-Video：当创作从技术操作演变为思想表达

N_m3u8DL-RE流媒体下载终极指南：三步搞定加密HLS/DASH视频

浦东装修哪家靠谱？2026 住户真实口碑家装综合盘点 - 装修新知

无训练图像编辑：基于扩散模型特征混合的文本引导图像修改技术

实战指南：如何用TradingAgents-CN构建AI驱动的智能股票分析系统

2026实测石家庄5家搬家公司，乐享才是普通人搬家首选 - 幸福生活序曲

工控系统防御伪装成合法软件的银行木马攻击实战指南

OpenCore Legacy Patcher技术深度探索：逆向工程突破苹果硬件兼容性限制

Java开发团队协作：提高开发效率和质量

从零开始构建你的AI股票分析大脑：TradingAgents-CN完全指南

LSPatch完整指南：如何在Android 9+设备上免Root使用Xposed模块？

国内主流模内注塑企业性价比排行核心维度实测对比 - 起跑123

大模型端侧推理底层解密：ggml-vulkan 极致的矩阵乘法优化路线

2026武汉江诗丹顿名表回收指南，验表知识+避坑技巧全整理 - 名奢变现站

百度网盘秒传链接工具：重新定义文件分享的智能解决方案

语言思维与非语言思维、概念隐喻多层观

AI与大模型新闻日报 | 2026-06-22

用多模型 AI 辅助排查接口超时：从日志分析到测试用例补全

如何用Akagi麻将AI助手3分钟提升你的麻将水平：从新手到高手的完整指南

评估一个简单的 RAG 系统

端到端运行示例

相关文章：