当前位置：首页 > news >正文

langfuse 评估Data Objects选择

news 2026/3/26 18:51:20

一、整体层级关系（先建立直觉）
二、各对象的作用与评测意义
- 1️⃣ Trace（最重要，默认根对象）
- 2️⃣ Generation（LLM 输出评测的核心）
- 3️⃣ Retriever（RAG 专属对象）
- 4️⃣ Embedding（底层但很关键）
- 5️⃣ Agent（智能体级评测）
- 6️⃣ Chain（子流程 / FSM）
- 7️⃣ Tool（工具调用）
- 8️⃣ Guardrail（安全与约束）
- 9️⃣ Span / Event（诊断级）
三、评测配置的推荐组合（实战）
- ✅ RAG 系统（最典型）
- ✅ Multi-Agent 系统
- ✅ 模型 / Prompt 对比
- ✅ 检索效果专项评测
四、一句话总结（面试级）

你截图里的这些 Data Objects，本质上是 Langfuse 可观测性模型里的不同“语义层级对象”。
在配置评测（Evaluation）时选择从哪些对象 retrieve，决定了：

评测针对 系统的哪一层
输入给评测器（LLM / Rule / Heuristic）的 上下文粒度
能否定位问题（模型问题、检索问题、路由问题、工具问题）

下面我按 「是什么 → 什么时候用 → 评测能评什么」 给你一套工程视角的解释。

一、整体层级关系（先建立直觉）

一个完整请求在 Langfuse 里通常是：

Trace（一次用户请求）├─ Agent（一个智能体）│   ├─ Chain（逻辑链 / 子流程）│   │   ├─ Retriever│   │   │   └─ Embedding│   │   ├─ Tool│   │   └─ Generation（LLM 调用）│   └─ Guardrail└─ Event / Span（补充行为）

评测选哪个对象 = 你想评“哪一层做得好不好”

二、各对象的作用与评测意义

1️⃣ Trace（最重要，默认根对象）

是什么

一次完整用户请求的生命周期
包含所有子调用（Agent / Generation / Tool / Retriever 等）

什么时候用

端到端评测
产品级 KPI：是否解决问题、是否正确、是否合规

能评什么

Answer Correctness
Task Success
User Satisfaction（人工 or LLM-as-judge）
多轮是否跑偏

典型场景

RAG 系统整体效果评测
客服问题是否被正确解决

👉 90% 生产评测都应该至少包含 Trace

2️⃣ Generation（LLM 输出评测的核心）

是什么

一次具体的 LLM 调用（prompt + response）

什么时候用

你关心 模型输出质量本身
不想被检索、路由等干扰

能评什么

Faithfulness（是否胡编）
Relevance
Tone / Safety
格式正确性（JSON / Schema）

典型场景

RAG 中回答是否基于 context
多模型对比（GPT-4 vs Qwen）

👉 RAG / Agent 项目中使用频率最高

3️⃣ Retriever（RAG 专属对象）

是什么

一次检索行为（query → documents）

什么时候用

排查 “检索没捞到好东西” 的问题
模型答错但其实是数据问题

能评什么

Recall / Coverage
Context Relevance
是否包含正确文档

典型场景

“模型答得不对，是因为压根没检索到答案”

👉 RAG 评测一定要有 Retriever

4️⃣ Embedding（底层但很关键）

是什么

向量化调用（query embedding / doc embedding）

什么时候用

调 embedding 模型
对比不同 embedding 模型效果

能评什么

相似度分布
Query-Doc 对齐度
向量漂移（回归问题）

典型场景

MiniLM vs BGE vs text-embedding-3-large

⚠️ 一般不直接做业务评测，更多是 离线诊断

5️⃣ Agent（智能体级评测）

是什么

一个 Agent 的完整决策与执行

什么时候用

Multi-Agent 系统
想看 Agent 是否选对策略

能评什么

Routing 是否正确
是否过度调用工具
决策是否合理

典型场景

Router Agent 是否把问题交给了正确的子 Agent

6️⃣ Chain（子流程 / FSM）

是什么

Agent 内部的一段逻辑链（if-else / FSM / DAG）

什么时候用

LangGraph / FSM 架构
排查某个子流程质量

能评什么

流程是否走对
中间状态是否合理

7️⃣ Tool（工具调用）

是什么

一次外部工具调用（API / DB / Function）

什么时候用

Agent tool-heavy
成本、正确性敏感

能评什么

Tool 是否被错误调用
参数是否合理
是否不该调用却调用了

8️⃣ Guardrail（安全与约束）

是什么

内容过滤 / 合规规则

什么时候用

强合规系统
内容安全评测

能评什么

是否漏拦
是否误杀

9️⃣ Span / Event（诊断级）

是什么

自定义埋点（函数、阶段）

什么时候用

性能分析
复杂流程调试

一般不直接用于业务评测

三、评测配置的推荐组合（实战）

✅ RAG 系统（最典型）

至少选择

Trace
Generation
Retriever

可选

Embedding（对比模型时）

✅ Multi-Agent 系统

至少选择

Trace
Agent
Generation
Tool

✅ 模型 / Prompt 对比

只选

Generation

✅ 检索效果专项评测

只选

Retriever
Embedding

四、一句话总结（面试级）

Langfuse 的评测对象，本质是 从“端到端体验”到“底层原子能力”的不同抽象层级。
Trace 看整体，Generation 看模型，Retriever 看 RAG，Agent / Tool 看决策与执行。

如果你愿意，我可以 按你现在的系统架构（LangGraph + RAG）直接给你一套评测配置模板，包括每个对象该配哪些 Evaluator。

http://www.jsqmd.com/news/113702/

相关文章：

PHP 之高级面向对象编程深入理解设计模式、原则与性能优化

2025年评价高的印刷胶辊行业内口碑厂家推荐 - 行业平台推荐

毕业季必看：8款AI论文工具实测，一键生成文献综述与真实文献交叉引用 - 麟书学长

2025年知名的唐山特产熏鸡/玉田正宗熏鸡热门榜单 - 行业平台推荐

跨系统调用一致性 Seata Saga 模式 vs Temporal

2025年比较好的熏鸡质量认证榜 - 行业平台推荐

2025年质量好的超高清显示屏/LED显示屏批发值得信赖厂家推荐（精选） - 行业平台推荐

比较好的石蜡油厂家在2025年表现如何？ - 2025年品牌推荐榜

口碑好的石蜡油厂家：2025年最新推荐 - 2025年品牌推荐榜

2025年12月江苏徐州皮带采样机厂家专业对比 - 2025年品牌推荐榜

靠谱的高纯气体品牌有哪些？2025年盘点 - 2025年品牌推荐榜

知名的激光清洗设备品牌怎么选2025年 - 2025年品牌推荐榜

微软Azure AI语言服务曝出严重SSRF漏洞（CVE-2025-64663）

2025年12月广东惠州精密模具企业前五推荐 - 2025年品牌推荐榜

2025年12月广东惠州精密模具公司口碑排行 - 2025年品牌推荐榜

2025年最好的宁波GEO优化公司有哪些 - 2025年品牌推荐榜

2025年12月四川玻璃楼梯厂家批发排行 - 2025年品牌推荐榜

2025年热门的卷帘门/快速卷帘门值得信赖厂家推荐（精选） - 行业平台推荐

2025年比较好的显示屏厂家实力参考 - 行业平台推荐

dotnet win32 判断传入路径是否在 U 盘

智能手机防盗为何如此困难？技术、市场与全球治理的挑战

2025年质量好的密封卷帘门品牌厂商推荐（更新） - 行业平台推荐

2025年12月四川楼梯栏杆厂家口碑榜 - 2025年品牌推荐榜

2025年上海ISO27001认证服务商综合评估与选择建议 - 2025年品牌推荐榜

2025年下半年北京朋友圈计划公司推荐排行 - 2025年品牌推荐榜

docker拉取镜像支持http

2025年12月重庆酒具公司哪家可靠？前五推荐 - 2025年品牌推荐榜

2025年下半年如何选择汽车水泵轴承供应商？ - 2025年品牌推荐榜

2025年下半年汽车水泵轴承公司专业推荐 - 2025年品牌推荐榜

2025年下半年重庆酒具厂家专业排行 - 2025年品牌推荐榜