当前位置：首页 > news >正文

智能问数 POC 基准该怎么建？为什么很多 99% 准确率并不可信

news 2026/7/7 1:26:44

智能问数 POC 的关键，不是看系统能不能把几道指定题做对，而是看它在真实业务语义下，能不能稳定回答客户临场提出的问题。过去很多厂商宣传“准确率 99%”，但如果仔细拆开测试方式，就会发现其中不少评测其实建立在固定题库、提前整理口径、甚至预制 SQL 或预制答案路径的前提下。这类测试更像开卷考试，甚至是带标准答案的开卷考试，测出来的是模板命中率、规则匹配率和问答对召回率，而不是真正的业务理解能力。

真正有价值的智能问数 POC，应该建立在“已知业务知识、未知现场题目、不允许逐题预制答案”的前提下。在这种情况下，系统能否稳定识别业务对象、定位关系路径、理解统计口径、完成计算推导，才是智能问数能力的真实体现。也正是在这个层面，本体语义路径下的系统与传统 NL2SQL 路径，应该用不同的基准来衡量。

一、为什么很多“99% 准确率”并不可信

很多所谓的高准确率评测，通常有三个隐藏前提。

1题目范围提前给定。评测题目来自预先整理好的题库，问题边界是已知的。

2答案路径提前准备。指标口径、字段映射、语义别名、典型 join 路径，往往已经为这些题做过针对性优化。

3系统本质上在做召回而不是理解。大量人力先把常见问法、同义词、业务口径、规则映射穷举出来，最后由 LLM 去匹配问答对、召回相近问题，再生成结果。

所以，很多“准确率 99%”并不是系统真的理解了业务，而是因为它在一个高度受控、答案路径已知的环境里做了复现。如果在这种条件下仍然做不到 100%，其实已经说明这条技术路径在复杂语义场景里并不稳定。

二、真正的智能问数 POC 应该测什么

智能问数 POC 不应该只测“能不能生成一段像样的 SQL”，而应该测“能不能在真实业务环境下，把问题答对”。这套基准至少应该包括五个维度。

1题目开放性。不能只测固定题库，而要允许客户现场出题。因为真实业务里，用户的问题并不是标准化输入，往往会出现口语化表达、歧义提问、追问改写、组织内部黑话等情况。只有现场出题，才能测出系统的真实适应能力。

2知识准备边界。POC 可以允许系统提前掌握业务知识，但不能允许为每道题逐题预制答案。可以提前输入对象、关系、属性、指标口径、术语定义，但不能把某类问题的 SQL、规则链、映射逻辑事先写死。前者叫知识初始化，后者叫答案预制，二者不是一回事。

3任务复杂度。POC 不能只测简单查询，必须覆盖真实业务中的复杂问答，包括多对象关联、多跳关系查询、复杂筛选条件、时间对比、派生指标和比率计算、组织内部术语与别名识别、需要业务口径判断的问题。如果一个系统只能在“单表、单指标、固定问法”的问题上表现良好，那它更适合作为演示系统，而不是业务级智能问数系统。

4结果判定标准。不能只看 SQL 和标准答案是否一致。因为同一个业务问题，可能存在多种等价 SQL 写法；而有些 SQL 看上去形式正确，但对象范围错了、口径错了、计算逻辑错了，最终答案依然不对。因此，真正的判定标准应该是结果是否正确、对象范围是否正确、关系路径是否合理、指标口径是否一致、计算逻辑是否可解释。

5考试方式区分。智能问数 POC 最重要的一点，是必须明确区分不同考试方式：预制答案测试、半开卷测试、开卷测试和闭卷测试。只有闭卷测试成绩高，才真正说明系统具备稳定的业务问答能力。

三、为什么本体语义路径更适合真实 POC

传统 NL2SQL 路径的核心任务，是把自然语言直接压成 SQL。这条路在简单场景里可以很快出效果，但一旦遇到复杂业务语义，就容易暴露问题：同一个业务对象在多个系统里名字不同；同一个指标在不同部门口径不一致；某些筛选条件依赖组织内部约定；多表 join 路径并不直接等于真实业务关系。这时，系统如果没有显式的业务对象、关系语义和指标口径，只靠 SQL 生成和问答对召回，很容易答得“像”，但不一定答得“对”。

相比之下，本体语义路径会先把业务世界拆成对象、关系、属性和计算规则，再去完成问答。这样一来，系统的重点就不是“把一句话翻译成 SQL”，而是“先把业务语义理解清楚，再得到答案”。从评测角度看，这类路径更适合复杂业务问答，也更适合企业真实场景中的闭卷式 POC。

四、为什么企业不能只看一个准确率数字

企业评估智能问数方案时，最容易被一个漂亮数字带偏。但如果一个厂商只报“准确率 99%”，却不说明题目来源、知识准备范围、是否预制答案、是否闭卷，那么这个数字的业务价值其实非常有限。

真正值得关心的问题是：系统能不能处理临场问题，能不能在复杂业务关系下稳定回答，能不能解释对象、关系、口径和计算过程，能不能在不依赖逐题预制的前提下保持高正确率。只有这些问题被回答清楚，POC 才有判断价值。

结语

智能问数真正该比的，不是“谁更会刷题”，而是谁更能在真实业务语义下稳定答题。从这个角度看，POC 的核心基准不该只是 SQL 生成率，而应该是系统在本体语义、对象关系、指标口径和复杂计算上的综合能力。对于企业级复杂场景来说，真正值得重视的，不是开卷测试下的漂亮数字，而是闭卷测试下的稳定正确率。面向复杂业务问答的智能问数系统，最终比拼的不是题库命中率，而是业务知识能否被结构化、语义化、可推理地沉淀下来。

查看全文

http://www.jsqmd.com/news/536065/