第七章:LLM输出质量评估方法——从指标到流程
本章难度:★★★★☆ | 预计阅读时间:10分钟
你将学到:LLM评估的四大核心维度、三大评估框架对比、LLM-as-Judge的用法与局限、人工评估设计方法、红队测试流程、以及如何建立完整的评估体系
引言:为什么评估是AI产品的核心竞争力
你上线了一个RAG聊天机器人,工程师说"效果不错",你问"有多不错",他回答"挺准的"。
这不是一个可持续的状态。
2026年的AI产品竞争,已经从"能不能做"变成"做得多好"。
研究数据显示:90%的RAG流水线在Demo时表现优异,但在生产环境中失败。失败的原因是可以预测的:检索到的答案看似相关但实际答非所问、正确文档被排在后面、多跳问题无法处理……
这些问题,只有通过系统的评估才能发现和修复。
但PM面临的困境是:AI输出是"软"的——不像传统产品有明确的转化率、留存率,AI的"质量"很难量化。
本章的目标:让PM建立AI质量评估的思维框架,知道评估什么、用什么工具评估、如何把评估集成到产品流程中。
1. 传统NLP评估指标的局限
1.1 BLEU与ROUGE:曾经的主力
在LLM之前,NLP评估主要靠BLEU和ROUGE:
