当前位置: 首页 > news >正文

代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估

代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估

一、代码核心目标与整体流程

基于DeepEval框架实现工单摘要质量的批量自动评估:对接自定义 OpenAI 兼容接口(34ku),读取 Excel 中的「原始工单对话+人工/模型生成的工单摘要」,通过 DeepEval 的SummarizationMetric指标完成摘要质量打分,最终输出逐行评分、通过率、平均分等统计结果。

整体执行流程:

读取Excel(原始对话+摘要)→ 构建DeepEval测试用例 → 调用自定义LLM执行摘要评估 → 解析评分结果 → 统计/保存结果

二、核心原理:摘要评估的底层逻辑(SummarizationMetric)

DeepEval 的SummarizationMetric基于LLM的自动评估指标,核心是让大模型充当“评委”,从「准确性、完整性、简洁性、流畅性」四个维度评判摘要质量,具体逻辑:

  1. 构造评估Prompt:DeepEval 会

http://www.jsqmd.com/news/93966/

相关文章:

  • 2025首届长三角多动症医学论坛暨公益节在合肥天使儿童医院隆重举行
  • 云服务器邂逅英伟达B200:AI算力革命的黄金搭档
  • 【Java毕设源码分享】基于springboot+vue的疫情防控自动售货机系统的设计与实现(程序+文档+代码讲解+一条龙定制)
  • 家校沟通不用“猜”,小二查成绩让每分进步都清晰可见
  • LobeChat提示词模板管理系统使用指南
  • 监控运维面试题.运维工程师面试题
  • 【vue2form表单中的动态表单校验】
  • 好写作AI:你的论文“电子榨菜”,专治表达“高血压”!
  • LobeChat能否集成GitLab CI/CD?自动化发布流程设计
  • 细胞与基因治疗(CGT)核心干货科普
  • 使用Miniconda定制专属AI镜像,提升GPU算力利用率
  • Plotly高级可视化库的使用方法(二)
  • 好写作AI:论文格式“救星”,一键告别“调参”噩梦
  • 2025年12月江苏徐州民办高中/民办学校精选推荐 - 2025年品牌推荐榜
  • 使用vLLM镜像在模力方舟平台部署Qwen的完整指南
  • 算子封装 以不同颜色显示多个obj
  • 好写作AI:研究者的“第二大脑”,专治思维卡壳和灵感“便秘”!
  • halcon3d 求角平分面
  • 颈椎枕专利量化分析:3 大痛点频次与 2 条技术路线落地性测试
  • Navicat 技术指引 | 如果查询运行失败并返回错误,你可以请求 AI 调试查询并提供修复方案
  • 全网最全的Cobalt Strike使用教程-内网渗透之域控攻击篇!黑客技术零基础入门到精通教程建议收藏!
  • Miniconda轻量化设计理念对AI工程化的启示
  • IDEA+mybatis实现学生信息查询系统
  • 腾讯云国际站代理商 ACE有什么优势呢?
  • Th17 细胞的分化调控、功能特征
  • 文献管理Mendeley格式用中文GB/T 7714-2015
  • Ubuntu安装SSH服务以便远程访问PyTorch开发机
  • Plotly高级可视化库的使用方法(一)
  • 好写作AI:给写作来一次“版本大更新”!论传统写作与智能辅助的范式融合
  • OpenSpec定义AI模型接口标准助力Qwen3-VL-30B集成