当前位置：首页 > news >正文

大型语言模型幻觉检测：能量模型与溢出能量方法

news 2026/5/1 4:13:03

1. 大型语言模型中的幻觉问题解析

大型语言模型（LLMs）在文本生成过程中存在一个显著问题：它们倾向于产生看似合理但实际上错误或误导性的信息，这种现象被称为"幻觉"。这种现象的存在挑战了我们对LLMs真实理解能力的认知，也引发了关于其可靠性的广泛讨论。

1.1 幻觉的本质与分类

从技术角度看，幻觉可以被定义为LLM产生的任何形式的错误输出，包括但不限于事实错误、偏见输出、常识推理失误等。研究者们对幻觉进行了多种分类尝试：

外在幻觉：以人类对这些错误的解释为衡量标准
内在幻觉：从模型内部机制出发进行研究

值得注意的是，近期研究开始使用"虚构"（confabulation）等术语来描述这种现象，甚至暗示LLMs可能具有某种形式的"意图"。然而，这种拟人化的描述在学术界仍存在争议。

1.2 现有检测方法的局限性

当前主流的幻觉检测方法主要分为两类：

基于探针分类器的方法：在模型内部表示上训练分类器来预测回答的正确性
基于解码干预的方法：在推理时通过干预模型激活来引导输出

然而，这些方法都存在明显缺陷。探针分类器通常无法跨任务泛化，而解码干预方法则需要针对每个任务进行专门调整。这种局限性在真实应用场景中尤为明显，因为用户与LLMs的交互通常是开放且不可预测的。

关键发现：Orgad等人的研究表明，探针分类器在不同任务间的泛化能力极差，这促使我们寻求更通用的解决方案。

2. 能量模型理论基础与LLM重构

2.1 能量模型核心概念

能量模型（EBMs）是一类通过能量函数Eθ(x)定义数据点x概率分布的模型。其核心公式为：

pθ(x) = exp(-Eθ(x))/Zθ

其中Zθ是配分函数（归一化常数）。EBMs的关键优势在于其灵活性——能量函数可以以各种方式定义，不受特定参数形式的限制。

与传统神经网络不同，EBMs不是确定性函数逼近器，而是定义了数据或潜在变量上的完整概率分布。训练EBMs涉及学习能量函数的参数，使其概率分布与数据的经验分布匹配。

2.2 LLM作为自回归EBMs

我们将LLM重新解释为通过概率链规则实现的自回归EBMs。文本数据被分割为标记序列X = {xi,...,x1}，语言建模目标被表述为最大化这种数据的似然：

p(xi:1) = Π pθ(xi|xi-1:1) pθ(x1)

有趣的是，虽然这个分解旨在实现生成建模（p(xi:1)），但它实际上递归地使用了判别分类器（由Transformer网络θ参数化）来预测给定先前标记的下一个标记xi在词汇表V上的离散分布。

3. 溢出能量理论与实现

3.1 数学基础与推导

在预测位置i的标记时，θ建模的条件概率可以分解为：

p(xi:1) = Π pθ(xi:1)/pθ(xi-1:1)

根据数学原理，这些量应该沿着序列相互抵消，但实际上这一约束并未被显式优化，我们可以利用这一点进行幻觉检测。

通过将条件概率表示为两个EBMs的比率，我们得到：

log pθ(xi|xi-1:1) = -Eℓθ(xi:1) + Emθ(xi-1:1)

其中：

Eℓθ(xi:1) = -θ(xi-1:1)[id(xi)] （采样标记的能量）
Emθ(xi-1:1) = -log Σ exp(θ(xi-1:1)[k]) （边际能量）

3.2 溢出能量的定义与应用

我们定义溢出能量（Spilled Energy）为：

ΔEθ(xi:1) ≜ -Emθ(xi:1) + Eℓθ(xi:1)

理论上，这两个能量项应该相等，但由于它们在不同时间步测量，实际会产生差异。我们发现这种差异与LLM产生错误输出的情况强相关。

实操提示：在实际应用中，我们关注"精确答案标记"（如回答中的关键实体或数字），对这些标记计算溢出能量能获得最佳检测效果。

4. 实验验证与性能分析

4.1 合成算术实验

我们在受控环境中评估溢出能量——多位算术问题（超过14位数字）。为每个实例生成正确和错误的解决方案，错误分为三类：

简单错误：偏移量在[1000,10000]范围内
中等错误：偏移量在[100,1000]范围内
困难错误：偏移量在[1,10]范围内

测试模型包括Llama-3 8B、Qwen-3 8B和Mistral-7B-Instruct。结果显示溢出能量值能可靠地区分正确和错误的解决方案，在所有错误范围和所有LLMs上都表现出明显的分离边界。

4.2 真实基准测试

我们在多样化NLP基准上评估方法性能，包括：

Math（数学推理）
TriviaQA（知识问答）
HotpotQA（多跳推理）
Winogrande（常识推理）
Movies（事实检索）

比较基线包括：

Orgad等人的探针分类器
Varshney等人的logit置信度
Kadavath等人的p(true)方法

关键发现：

溢出能量（ΔEθ）在大多数情况下优于logit置信度
显著超越Orgad等人的探针分类器
无需训练即可跨数据集泛化

4.3 跨数据集泛化能力

在更现实的跨数据集迁移设置中，我们的方法表现出色。训练方法（如探针分类器）在分布外数据上的性能仅略高于随机猜测，而溢出能量则无需训练就在大多数数据集上表现出改进。

表1展示了九个基准测试的总体结果（AuROC）：

方法	平均性能
Logit置信度	56.12%
Orgad探针分类器	63.67%
边际能量(最小池化)	67.23%
溢出能量(最小池化)	73.32%

5. 技术细节与优化策略

5.1 精确答案标记定位

与先前工作一致，我们确认搜索精确答案标记能带来显著提升：

溢出能量和边际能量提升约24%
logit基线仅提升9%

这表明定位关键回答部分对检测效果至关重要。

5.2 池化策略比较

我们比较了多种池化策略：

最大池化：取序列中的最大值
最小池化：取序列中的最小值
平均池化：计算序列平均值

实验表明，最小池化在大多数方法和任务中表现最佳，特别是在处理多标记答案时。

5.3 指令微调的影响

我们观察到基础模型与其指令微调版本之间的行为差异：

指令微调通常会提高生成质量，但可能降低经典置信度指标的校准
相比之下，溢出能量从指令微调中普遍受益，显示出更高的检测率

例如：

LLaMA-3基础版：68.69% → 微调后：73.16%
Mistral基础版：73.94% → 微调后：77.49%

6. 实际应用中的注意事项

6.1 当前局限性

尽管表现优异，溢出能量方法仍有一些限制：

在非语义信息标记（如标点符号）上可能产生假阳性
句子开头的词语通常有较高的溢出能量
精确答案标记的定位对性能至关重要

6.2 最佳实践建议

基于我们的实验经验，推荐以下应用策略：

预处理步骤：
- 使用简洁提示让LLM明确标出关键答案部分
- 对长回答进行分段处理
参数调整：
- 对不同模型家族（如LLaMA、Mistral）设置不同阈值
- 数学类任务可比开放域任务使用更严格的阈值
结果解释：
- 高溢出能量应触发人工复核
- 结合其他信号（如边际能量）进行综合判断

6.3 扩展应用场景

溢出能量方法可应用于：

数学推理验证：检测复杂计算中的错误步骤
事实核查系统：标记可能的事实性错误
对话系统监控：实时识别可能的误导性回答
模型调试工具：分析特定模型架构的弱点

7. 理论意义与未来方向

从理论角度看，这项工作提供了几个重要见解：

LLMs的内部动力学：溢出能量揭示了自回归生成过程中未被充分优化的约束
能量视角的统一：将判别分类器重新解释为EBMs，为理解模型行为提供了新框架
基础限制的量化：为LLMs不可避免的幻觉现象提供了可测量的指标

未来研究方向可能包括：

将溢出能量集成到训练目标中，直接优化模型的事实性
开发基于能量的解码策略，实时避免高溢出能量路径
研究不同模型架构（如非自回归模型）中的类似现象
探索溢出能量与其他不确定性量化方法的关系

在实际部署中，我们发现将溢出能量阈值设置为1.5-2.0（根据不同任务调整）能有效平衡精确率和召回率。对于关键应用场景，建议结合人工审核或额外验证步骤。

查看全文

http://www.jsqmd.com/news/729397/

【限时开源】Swoole-LLM-Connector v2.3：内置Token流控、上下文压缩、断线续问的私有化长连接SDK（GitHub Star破1.2k前最后更新）

Claude Code一键部署-详细案例接入国产大模型GLM，附配置模版与Claude常用命令

数控机床主轴热误差补偿与故障预测【附代码】

Anything-Extract：适配器模式与插件化架构实现多源数据统一提取

设备停机损失每小时超￥8.6万！用R语言构建实时RUL预测看板，响应延迟＜800ms

量子信号检测的全局Clifford协议框架与实现

基于本体与技能增强Claude：构建领域专家AI的工程实践

如何用Rubberduck彻底改造你的VBA开发环境

串行点对点架构在工业嵌入式系统中的技术演进与应用

Taotoken多模型聚合平台为c语言后端服务注入ai能力

AI生图可以自由修改了！

Swoole 5.1 + LLM服务长连接落地：从TCP心跳优化到协程超时熔断的7步精准配置

RWKV-7 (1.5B World)开源大模型部署：从Docker到systemd服务守护

基于MCP协议实现AI与Notion自动化集成：原理、部署与实战

【嵌入式实战-15】超详细！ESP32-C3 智能插座（WiFi + 继电器 + 本地控制 + APP 远程）Arduino完整教程前言

SVE2指令集解析：向量计算与性能优化

Geek Cookbook监控方案：SwarmProm与Grafana仪表板搭建

Dify医疗知识库构建全流程，从非结构化病历PDF解析、实体脱敏标注到可审计问答溯源链（附卫健委备案自查清单）

LangChain资源精选集：AI应用开发的导航地图与实战指南

Python 爬虫数据处理：半结构化网页数据智能抽取模板

知识竞赛软件题库准备：从混乱表格到可执行题包

Qwen2.5为何难部署？显存与依赖版本避坑指南

Translumo：解锁屏幕文字实时翻译的突破性方案，让语言障碍瞬间消失

【2026最新】保姆级VMware安装Ubuntu24虚拟机教程（附安装包）

在 OpenClaw Agent 工作流中接入 Taotoken 多模型服务的步骤

Dify租户数据混杂？立即排查这5类隔离断点：SQL注入绕过、缓存Key污染、向量库tenant_id缺失、审计日志盲区、API网关路由失效

Python 爬虫分布式架构基础与多机协同采集方案

nanobanana-cli：AI模型一键部署工具，告别环境配置难题

C语言学习笔记——文件操作

微软2026财年Q3财报：营收稳健但核心业务有隐忧，Azure刚及格Copilot付费用户增30%