当前位置：首页 > news >正文

大语言模型幻觉问题解析与抗幻觉技术实践

news 2026/7/5 3:31:20

在文档问答场景中，大语言模型(LLM)的幻觉问题本质上源于模型对概率分布的过度拟合与知识边界的模糊认知。当模型面对超出其训练数据覆盖范围或文档中未明确包含的信息时，基于统计模式生成的倾向会压倒事实核查机制，导致虚构内容的产生。

在1720亿token的测试数据中，我们观察到三种典型的幻觉模式：

事实虚构：模型生成文档中完全不存在的实体或属性。例如当问及"某医疗报告中的患者血压值"时，模型可能编造一个合理的数值（如"120/80mmHg"），而实际文档并未记载该数据。测试显示，即使是表现最好的GLM 4.5模型，在32K上下文长度下仍有1.19%的概率发生此类错误。
来源混淆：模型将不同文档的信息错误关联。在多文档问答场景中，Llama 3.1 70B模型表现出53.04%的混淆率，经常将A文档的结论错误归因于B文档。
过度推断：模型基于有限信息做出无依据的扩展。例如当文档仅提到"患者有高血压病史"，模型可能推断出具体的药物治疗方案。这种幻觉在聚合类问题(L05-L10)中尤为突出，平均错误率比单文档问题高22个百分点。

传统评估方法存在三个根本缺陷：静态数据集易受污染、LLM作为评判者存在偏见、评估规模不足。RIKER框架通过"范式反转"解决了这些问题：

确定性评分：先构建包含实体关系的数据库，再生成可读文档。每个问题都有构造性正确答案，无需人工标注。在测试Qwen3 235B-A22B模型时，该方法实现了100%判定准确率。
污染抵抗：通过随机种子重新生成语料库，确保模型无法通过记忆作弊。在连续5次再生测试中，模型表现差异小于0.3%。
无限扩展：模板化文档生成使评估规模突破1720亿token，是先前工作的8倍。例如在200K上下文测试中，每个模型接受超过80亿输入token的压力测试。

测试数据显示，当上下文从32K扩展到200K时，所有模型均出现性能下降，但衰减幅度差异显著：

模型类型	32K→128K衰减	128K→200K衰减	总衰减
混合专家(MoE)	6.02pp	5.17pp	11.19pp
稠密模型	10.4pp	13.5pp	23.9pp
极端案例	28.3pp	27.3pp	55.6pp

Qwen3 Next 80B-A3B（MoE架构）展现出最强的上下文韧性，200K时仅衰减11.19个百分点，而GLM 4.6在相同条件下性能暴跌55.6个百分点。这种差异揭示了模型架构对长上下文处理的关键影响。

注意力稀释：在200K上下文中，关键信息可能分布在0.1%的token里。测试显示，当相关信息位于上下文中间段时，Llama 3.3 70B的检索准确率下降41%，验证了"迷失在中间"现象。
记忆过载：在多文档聚合任务中，模型需要同时跟踪多个文档的关联信息。128K上下文时，Qwen3 Coder 480B的聚合准确率比单文档任务低32个百分点。
噪声累积：更长的上下文包含更多干扰信息。GLM 4.6在200K时的虚构回答率达到71.62%，是其32K表现的10倍，表明噪声显著影响模型的事实核查能力。

传统认知认为T=0.0（贪婪解码）能获得最佳事实性，但数据显示：

60/40法则：仅在60%的模型-上下文组合中，T=0.0确实带来最高准确率。但在剩余40%情况下，适度温度（T=0.4-1.0）反而提升表现。例如Qwen3 235B-A22B在T=0.7时，聚合准确率比T=0.0高5.2个百分点。
任务依赖性：单文档提取任务在T=0.0表现最佳的比例达73%，而聚合任务仅47%。复杂问题需要一定的随机性来探索解决方案空间。