当前位置: 首页 > news >正文

langfuse 评估Data Objects选择

目录
  • 一、整体层级关系(先建立直觉)
  • 二、各对象的作用与评测意义
    • 1️⃣ Trace(最重要,默认根对象)
    • 2️⃣ Generation(LLM 输出评测的核心)
    • 3️⃣ Retriever(RAG 专属对象)
    • 4️⃣ Embedding(底层但很关键)
    • 5️⃣ Agent(智能体级评测)
    • 6️⃣ Chain(子流程 / FSM)
    • 7️⃣ Tool(工具调用)
    • 8️⃣ Guardrail(安全与约束)
    • 9️⃣ Span / Event(诊断级)
  • 三、评测配置的推荐组合(实战)
    • ✅ RAG 系统(最典型)
    • ✅ Multi-Agent 系统
    • ✅ 模型 / Prompt 对比
    • ✅ 检索效果专项评测
  • 四、一句话总结(面试级)

你截图里的这些 Data Objects,本质上是 Langfuse 可观测性模型里的不同“语义层级对象”
配置评测(Evaluation)时选择从哪些对象 retrieve,决定了:

  • 评测针对 系统的哪一层
  • 输入给评测器(LLM / Rule / Heuristic)的 上下文粒度
  • 能否定位问题(模型问题、检索问题、路由问题、工具问题)

下面我按 「是什么 → 什么时候用 → 评测能评什么」 给你一套工程视角的解释。


一、整体层级关系(先建立直觉)

一个完整请求在 Langfuse 里通常是:

Trace(一次用户请求)├─ Agent(一个智能体)│   ├─ Chain(逻辑链 / 子流程)│   │   ├─ Retriever│   │   │   └─ Embedding│   │   ├─ Tool│   │   └─ Generation(LLM 调用)│   └─ Guardrail└─ Event / Span(补充行为)

评测选哪个对象 = 你想评“哪一层做得好不好”


二、各对象的作用与评测意义

1️⃣ Trace(最重要,默认根对象)

是什么

  • 一次完整用户请求的生命周期
  • 包含所有子调用(Agent / Generation / Tool / Retriever 等)

什么时候用

  • 端到端评测
  • 产品级 KPI:是否解决问题、是否正确、是否合规

能评什么

  • Answer Correctness
  • Task Success
  • User Satisfaction(人工 or LLM-as-judge)
  • 多轮是否跑偏

典型场景

RAG 系统整体效果评测
客服问题是否被正确解决

👉 90% 生产评测都应该至少包含 Trace


2️⃣ Generation(LLM 输出评测的核心)

是什么

  • 一次具体的 LLM 调用(prompt + response)

什么时候用

  • 你关心 模型输出质量本身
  • 不想被检索、路由等干扰

能评什么

  • Faithfulness(是否胡编)
  • Relevance
  • Tone / Safety
  • 格式正确性(JSON / Schema)

典型场景

RAG 中回答是否基于 context
多模型对比(GPT-4 vs Qwen)

👉 RAG / Agent 项目中使用频率最高


3️⃣ Retriever(RAG 专属对象)

是什么

  • 一次检索行为(query → documents)

什么时候用

  • 排查 “检索没捞到好东西” 的问题
  • 模型答错但其实是数据问题

能评什么

  • Recall / Coverage
  • Context Relevance
  • 是否包含正确文档

典型场景

“模型答得不对,是因为压根没检索到答案”

👉 RAG 评测一定要有 Retriever


4️⃣ Embedding(底层但很关键)

是什么

  • 向量化调用(query embedding / doc embedding)

什么时候用

  • 调 embedding 模型
  • 对比不同 embedding 模型效果

能评什么

  • 相似度分布
  • Query-Doc 对齐度
  • 向量漂移(回归问题)

典型场景

MiniLM vs BGE vs text-embedding-3-large

⚠️ 一般不直接做业务评测,更多是 离线诊断


5️⃣ Agent(智能体级评测)

是什么

  • 一个 Agent 的完整决策与执行

什么时候用

  • Multi-Agent 系统
  • 想看 Agent 是否选对策略

能评什么

  • Routing 是否正确
  • 是否过度调用工具
  • 决策是否合理

典型场景

Router Agent 是否把问题交给了正确的子 Agent


6️⃣ Chain(子流程 / FSM)

是什么

  • Agent 内部的一段逻辑链(if-else / FSM / DAG)

什么时候用

  • LangGraph / FSM 架构
  • 排查某个子流程质量

能评什么

  • 流程是否走对
  • 中间状态是否合理

7️⃣ Tool(工具调用)

是什么

  • 一次外部工具调用(API / DB / Function)

什么时候用

  • Agent tool-heavy
  • 成本、正确性敏感

能评什么

  • Tool 是否被错误调用
  • 参数是否合理
  • 是否不该调用却调用了

8️⃣ Guardrail(安全与约束)

是什么

  • 内容过滤 / 合规规则

什么时候用

  • 强合规系统
  • 内容安全评测

能评什么

  • 是否漏拦
  • 是否误杀

9️⃣ Span / Event(诊断级)

是什么

  • 自定义埋点(函数、阶段)

什么时候用

  • 性能分析
  • 复杂流程调试

一般不直接用于业务评测


三、评测配置的推荐组合(实战)

✅ RAG 系统(最典型)

至少选择

  • Trace
  • Generation
  • Retriever

可选

  • Embedding(对比模型时)

✅ Multi-Agent 系统

至少选择

  • Trace
  • Agent
  • Generation
  • Tool

✅ 模型 / Prompt 对比

只选

  • Generation

✅ 检索效果专项评测

只选

  • Retriever
  • Embedding

四、一句话总结(面试级)

Langfuse 的评测对象,本质是 从“端到端体验”到“底层原子能力”的不同抽象层级
Trace 看整体,Generation 看模型,Retriever 看 RAG,Agent / Tool 看决策与执行。

如果你愿意,我可以 按你现在的系统架构(LangGraph + RAG)直接给你一套评测配置模板,包括每个对象该配哪些 Evaluator。

http://www.jsqmd.com/news/113702/

相关文章:

  • PHP 之高级面向对象编程 深入理解设计模式、原则与性能优化
  • 2025年评价高的印刷胶辊行业内口碑厂家推荐 - 行业平台推荐
  • 毕业季必看:8款AI论文工具实测,一键生成文献综述与真实文献交叉引用 - 麟书学长
  • 2025年知名的唐山特产熏鸡/玉田正宗熏鸡热门榜单 - 行业平台推荐
  • 跨系统调用一致性 Seata Saga 模式 vs Temporal
  • 2025年比较好的熏鸡质量认证榜 - 行业平台推荐
  • 2025年质量好的超高清显示屏/LED显示屏批发值得信赖厂家推荐(精选) - 行业平台推荐
  • 比较好的石蜡油厂家在2025年表现如何? - 2025年品牌推荐榜
  • 口碑好的石蜡油厂家:2025年最新推荐 - 2025年品牌推荐榜
  • 2025年12月江苏徐州皮带采样机厂家专业对比 - 2025年品牌推荐榜
  • 靠谱的高纯气体品牌有哪些?2025年盘点 - 2025年品牌推荐榜
  • 知名的激光清洗设备品牌怎么选2025年 - 2025年品牌推荐榜
  • 微软Azure AI语言服务曝出严重SSRF漏洞(CVE-2025-64663)
  • 2025年12月广东惠州精密模具企业前五推荐 - 2025年品牌推荐榜
  • 2025年12月广东惠州精密模具公司口碑排行 - 2025年品牌推荐榜
  • 2025年最好的宁波GEO优化公司有哪些 - 2025年品牌推荐榜
  • 2025年12月四川玻璃楼梯厂家批发排行 - 2025年品牌推荐榜
  • 2025年热门的卷帘门/快速卷帘门值得信赖厂家推荐(精选) - 行业平台推荐
  • 2025年比较好的显示屏厂家实力参考 - 行业平台推荐
  • dotnet win32 判断传入路径是否在 U 盘
  • 智能手机防盗为何如此困难?技术、市场与全球治理的挑战
  • 2025年质量好的密封卷帘门品牌厂商推荐(更新) - 行业平台推荐
  • 2025年12月四川楼梯栏杆厂家口碑榜 - 2025年品牌推荐榜
  • 2025年上海ISO27001认证服务商综合评估与选择建议 - 2025年品牌推荐榜
  • 2025年下半年北京朋友圈计划公司推荐排行 - 2025年品牌推荐榜
  • docker拉取镜像支持http
  • 2025年12月重庆酒具公司哪家可靠?前五推荐 - 2025年品牌推荐榜
  • 2025年下半年如何选择汽车水泵轴承供应商? - 2025年品牌推荐榜
  • 2025年下半年汽车水泵轴承公司专业推荐 - 2025年品牌推荐榜
  • 2025年下半年重庆酒具厂家专业排行 - 2025年品牌推荐榜