第十七章:AI产品独有的指标体系
导读
传统产品指标(DAU、留存、转化率)依然重要,但AI产品有其独特的度量挑战——LLM输出是概率性的、不确定的、难以直接量化的。一个模型在Demo里表现惊艳,上线后可能让用户怨声载道;Token成本看起来很低,总账单却高得离谱。
这一章我们建立一套AI产品指标体系,聚焦四个核心领域:幻觉率与可靠性、上下文利用率、Token效率、模型调用成功率。目标是让PM能真正量化AI产品的质量、成本和用户体验,而不是被表面的"准确率"数字蒙蔽。
17.1 幻觉率:定义、测量与工程实践
什么是幻觉
“幻觉”(Hallucination)是LLM生成的内容包含错误、过时或无中生有的信息。Stanford HAI的2026年AI指数报告显示,当前顶尖LLM的幻觉率在**22%到94%**之间——这个巨大的跨度说明:幻觉率高度依赖任务类型:
| 任务类型 | 幻觉率范围 | 说明 |
|---|---|---|
| RAG任务 | 0.7%–13.6% | 有外部知识库支撑,幻觉相对可控 |
| 开放域问答 | 33%–51% | 无外部依据,完全依赖模型自身知识</ |
