当前位置：首页 > news >正文

ragas官方文档中文版（二十五）

news 2026/6/22 21:46:48

提示评估

在本教程中，我们将编写一个简单的评估流程来评估作为 AI 系统一部分的提示，此处为电影评论情感分类器。在本教程结束时，您将学习如何使用评估驱动开发来评估和迭代单个提示。

我们将从测试一个简单的提示开始，该提示将电影评论分类为正面或负面。

首先，确保您已安装 ragas 示例并设置了您的 OpenAI API 密钥：

pip install ragas[examples]export OPENAI_API_KEY="your_openai_api_key"

现在测试提示：

python-m ragas_examples.prompt_evals.prompt

这将测试输入"The movie was fantastic and I loved every moment of it!“，预期输出应为"positive”。

💡 快速开始：如果您想查看完整的评估运行过程，可以直接跳转到端到端命令，该命令会运行所有内容并自动生成 CSV 结果。

接下来，我们将为提示编写一些样本输入和预期输出。然后将它们转换为 CSV 文件。

importpandasaspd samples=[{"text":"I loved the movie! It was fantastic.","label":"positive"},{"text":"The movie was terrible and boring.","label":"negative"},{"text":"It was an average film, nothing special.","label":"positive"},{"text":"Absolutely amazing! Best movie of the year.","label":"positive"}]pd.DataFrame(samples).to_csv("datasets/test_dataset.csv",index=False)

现在我们需要有一种方法来衡量提示在这项任务中的性能。我们将定义一个指标，该指标会将提示的输出与预期输出进行比较，并据此输出通过/失败结果。

fromragas.metricsimportdiscrete_metricfromragas.metrics.resultimportMetricResult@discrete_metric(name="accuracy",allowed_values=["pass","fail"])defmy_metric(prediction:str,actual:str):"""Calculate accuracy of the prediction."""returnMetricResult(value="pass",reason="")ifprediction==actualelseMetricResult(value="fail",reason="")

接下来，我们将编写实验循环，在测试数据集上运行提示词，使用指标进行评估，并将结果存储在CSV文件中。

fromragasimportexperiment@experiment()asyncdefrun_experiment(row):response=run_prompt(row["text"])score=my_metric.score(prediction=response,actual=row["label"])experiment_view={**row,"response":response,"score":score.value,}returnexperiment_view

现在，每当您对提示词进行修改时，都可以运行实验，观察它如何影响提示词的性能。

传递额外参数
您可以向实验函数传递额外参数，例如模型或配置：

@experiment()asyncdefrun_experiment(row,model):response=run_prompt(row["text"],model=model)score=my_metric.score(prediction=response,actual=row["label"])experiment_view={**row,"response":response,"score":score.value,}returnexperiment_view# Run with specific parametersrun_experiment.arun(dataset,"gpt-4")# Or use keyword argumentsrun_experiment.arun(dataset,model="gpt-4o")

端到端运行示例

设置 OpenAI API 密钥

export OPENAI_API_KEY = "your_openai_api_key"

运行评估

python -m ragas_examples.prompt_evals.evals

这将执行以下操作：

使用示例电影评论创建测试数据集
在每个样本上运行情感分类提示词
使用准确率指标评估结果
将所有内容导出到包含结果的CSV文件

完成！您已成功使用 Ragas 运行了首次评估。现在可以通过打开 experiments/experiment_name.csv 文件来查看结果。

查看全文

http://www.jsqmd.com/news/1063716/

AVR32 TCA定时器与事件系统：从硬件联动到低功耗设计

2026 地坪漆东莞本地源头厂家｜广东固特易新材料水泥地坪漆 - 米諾

AVR USI模块SPI通信配置详解：从寄存器操作到实战调试

基于NXP TWR-K53N512平台的医疗AFE开发实战与信号采集全解析

2026年回收站液压打包机品牌推荐排行榜：这5家最靠谱 - 米諾

深度解析BCMeshTransformView核心技术：iOS视图网格变换的实战应用

AI写作助手在学术场景的定位演进：从语法检查到元认知支持

Obsidian模板库：从信息碎片到知识系统的结构化路径

东营靠谱装修｜古蓝装饰15年老牌团队，懂工艺更懂本地户型 - 资讯速览

南通初创企业如何规避财税外包风险？2026 服务商选型实测方案 - 资讯快报

老房翻新与整装新装：上海七家装企性价比画像分析 - 资讯速览

国际货代律师选购指南：如何选择专业靠谱的国际货代律师 - 资讯速览

2026龙虾ai官网推荐十款主流智能体实测测评零基础自动化工具盘点

惠普暗影精灵终极控制指南：OmenSuperHub开源解决方案完全解析

i.MX23 PWM控制器实战：从寄存器手册到稳定波形输出

BilibiliDown：轻松搞定B站视频下载，打造个人专属离线资源库

2026年扬州中企动力售后服务测评：专业响应，企业数字化转型的贴心护航者 - 品牌发掘

如何快速搭建免费音乐聚合API：一站式获取四大平台播放地址完整指南

5分钟快速上手：使用MediaCrawler轻松采集小红书、抖音、B站等新媒体数据

4S模型参数网格遍历寻优，自动找出适配A股最优参数组合。

突破macOS键盘限制：Karabiner-Elements的架构设计与高级定制技术

行测资料公式大全汇总|行测资料公式汇总一张表|行测资料必背公式

Python map函数本质与实战：惰性映射、数据流管道与避坑指南

Brainstorm深度探索：揭秘现代神经网络框架的设计哲学与实现机制

金属材料分析选购指南：如何选择专业检测服务 - 资讯快报

F_Record完整教程：轻松录制Photoshop绘画过程的终极指南

从数据迷雾到战术洞察：开源工具如何重新定义你的英雄联盟分析体验

2026汕尾营业性演出许可证有没有正规代办渠道推荐 - 资讯速览

2026年值得信赖的上海留学机构推荐，综合服务全面的优质机构 - 资讯快报

S12Z混合编程实战：列表文件解析与C/汇编接口设计

提示评估

端到端运行示例

相关文章：