当前位置: 首页 > news >正文

ragas官方文档中文版(二十五)

提示评估

在本教程中,我们将编写一个简单的评估流程来评估作为 AI 系统一部分的提示,此处为电影评论情感分类器。在本教程结束时,您将学习如何使用评估驱动开发来评估和迭代单个提示。


我们将从测试一个简单的提示开始,该提示将电影评论分类为正面或负面。

首先,确保您已安装 ragas 示例并设置了您的 OpenAI API 密钥:

pip install ragas[examples]export OPENAI_API_KEY="your_openai_api_key"

现在测试提示:

python-m ragas_examples.prompt_evals.prompt

这将测试输入"The movie was fantastic and I loved every moment of it!“,预期输出应为"positive”。

💡 快速开始 :如果您想查看完整的评估运行过程,可以直接跳转到端到端命令,该命令会运行所有内容并自动生成 CSV 结果。

接下来,我们将为提示编写一些样本输入和预期输出。然后将它们转换为 CSV 文件。

importpandasaspd samples=[{"text":"I loved the movie! It was fantastic.","label":"positive"},{"text":"The movie was terrible and boring.","label":"negative"},{"text":"It was an average film, nothing special.","label":"positive"},{"text":"Absolutely amazing! Best movie of the year.","label":"positive"}]pd.DataFrame(samples).to_csv("datasets/test_dataset.csv",index=False)

现在我们需要有一种方法来衡量提示在这项任务中的性能。我们将定义一个指标,该指标会将提示的输出与预期输出进行比较,并据此输出通过/失败结果。

fromragas.metricsimportdiscrete_metricfromragas.metrics.resultimportMetricResult@discrete_metric(name="accuracy",allowed_values=["pass","fail"])defmy_metric(prediction:str,actual:str):"""Calculate accuracy of the prediction."""returnMetricResult(value="pass",reason="")ifprediction==actualelseMetricResult(value="fail",reason="")

接下来,我们将编写实验循环,在测试数据集上运行提示词,使用指标进行评估,并将结果存储在CSV文件中。

fromragasimportexperiment@experiment()asyncdefrun_experiment(row):response=run_prompt(row["text"])score=my_metric.score(prediction=response,actual=row["label"])experiment_view={**row,"response":response,"score":score.value,}returnexperiment_view

现在,每当您对提示词进行修改时,都可以运行实验,观察它如何影响提示词的性能。

传递额外参数
您可以向实验函数传递额外参数,例如模型或配置:

@experiment()asyncdefrun_experiment(row,model):response=run_prompt(row["text"],model=model)score=my_metric.score(prediction=response,actual=row["label"])experiment_view={**row,"response":response,"score":score.value,}returnexperiment_view# Run with specific parametersrun_experiment.arun(dataset,"gpt-4")# Or use keyword argumentsrun_experiment.arun(dataset,model="gpt-4o")

端到端运行示例

  1. 设置 OpenAI API 密钥
export OPENAI_API_KEY = "your_openai_api_key"
  1. 运行评估
python -m ragas_examples.prompt_evals.evals

这将执行以下操作:

  • 使用示例电影评论创建测试数据集
  • 在每个样本上运行情感分类提示词
  • 使用准确率指标评估结果
  • 将所有内容导出到包含结果的CSV文件

完成!您已成功使用 Ragas 运行了首次评估。现在可以通过打开 experiments/experiment_name.csv 文件来查看结果。

http://www.jsqmd.com/news/1063716/

相关文章:

  • AVR32 TCA定时器与事件系统:从硬件联动到低功耗设计
  • 2026 地坪漆东莞本地源头厂家|广东固特易新材料水泥地坪漆 - 米諾
  • AVR USI模块SPI通信配置详解:从寄存器操作到实战调试
  • 基于NXP TWR-K53N512平台的医疗AFE开发实战与信号采集全解析
  • 2026年回收站液压打包机品牌推荐排行榜:这5家最靠谱 - 米諾
  • 深度解析BCMeshTransformView核心技术:iOS视图网格变换的实战应用
  • AI写作助手在学术场景的定位演进:从语法检查到元认知支持
  • Obsidian模板库:从信息碎片到知识系统的结构化路径
  • 东营靠谱装修|古蓝装饰15年老牌团队,懂工艺更懂本地户型 - 资讯速览
  • 南通初创企业如何规避财税外包风险?2026 服务商选型实测方案 - 资讯快报
  • 老房翻新与整装新装:上海七家装企性价比画像分析 - 资讯速览
  • 国际货代律师选购指南:如何选择专业靠谱的国际货代律师 - 资讯速览
  • 2026龙虾ai官网推荐十款主流智能体实测测评 零基础自动化工具盘点
  • 惠普暗影精灵终极控制指南:OmenSuperHub开源解决方案完全解析
  • i.MX23 PWM控制器实战:从寄存器手册到稳定波形输出
  • BilibiliDown:轻松搞定B站视频下载,打造个人专属离线资源库
  • 2026年 扬州中企动力售后服务测评:专业响应,企业数字化转型的贴心护航者 - 品牌发掘
  • 如何快速搭建免费音乐聚合API:一站式获取四大平台播放地址完整指南
  • 5分钟快速上手:使用MediaCrawler轻松采集小红书、抖音、B站等新媒体数据
  • 4S模型参数网格遍历寻优,自动找出适配A股最优参数组合。
  • 突破macOS键盘限制:Karabiner-Elements的架构设计与高级定制技术
  • 行测资料公式大全汇总|行测资料公式汇总一张表|行测资料必背公式
  • Python map函数本质与实战:惰性映射、数据流管道与避坑指南
  • Brainstorm深度探索:揭秘现代神经网络框架的设计哲学与实现机制
  • 金属材料分析选购指南:如何选择专业检测服务 - 资讯快报
  • F_Record完整教程:轻松录制Photoshop绘画过程的终极指南
  • 从数据迷雾到战术洞察:开源工具如何重新定义你的英雄联盟分析体验
  • 2026汕尾营业性演出许可证有没有正规代办渠道推荐 - 资讯速览
  • 2026年值得信赖的上海留学机构推荐,综合服务全面的优质机构 - 资讯快报
  • S12Z混合编程实战:列表文件解析与C/汇编接口设计