谷歌研究人员引入了“忠实不确定性”,使大型语言模型能够提供最佳猜测而非幻觉
大型语言模型仍在与幻觉问题作斗争,这对现实世界的企业应用构成了重大障碍。减少这些错误是一件复杂的事,迫使模型开发者在消除事实错误时常常压制有效答案,这种权衡非常严苛。
在一篇新论文中,谷歌研究人员引入了“忠实不确定性”这一概念,这是一种元认知技术,使模型的反应与其内部信心保持一致。这种对齐使模型能够提供适当的对冲假设,比如“我最好的猜测是”,而不是默认无益的“回答或弃权”二元对立。
在现实世界的智能人工智能应用中,这种元认知意识作为关键的控制层。它赋能自主系统准确判断何时内部知识足够,何时必须动态触发外部工具或搜索API来解决不足。
当前缓解策略的公用事业税
理解大型语言模型为何会产生幻觉,关键在于区分两种能力:模型知道事实与知道已知内容。历史上,人工智能的大多数事实性提升来自于扩展知识边界,这意味着开发者通过更大的规模和更多的训练数据,将更多事实压缩到模型参数中。
然而,扩展模型的知识并不自动提升其边界意识,即区分已知与未知并识别自身局限的能力。
谷歌研究科学家兼论文合著者Gal Yona告诉VentureBeat:“提升LLM事实性大致有两种方法。”第一种是继续教授模型更多事实。但Yona指出,“模型容量是有限的,而知识的长尾实际上是无限的。”
一旦模型达到这个极限,人们希望它们知道自己不知道的东西,并干脆避免回答。然而,这对大型语言模型来说本质上是困难的。
“这就是为什么大多数通过各种干预来减少幻觉的实际尝试实际上都未能被应用,”尤娜解释道。“它们确实减少了幻觉,但也损害了效用,因为模型最终拒绝回答它真正知道的问题。”
这种无法区分已知与未知的现象,导致了论文作者所称的“效用税”。执行零幻觉标准要求模型在哪怕稍有不确定时弃权,丢弃大量完全有效的信息。例如,作者证明将潜在的25%错误率降至严格的5%目标,迫使开发者丢弃模型正确答案的52%。
将所有错误视为幻觉,迫使企业系统在可信度与助人之间做出选择。应用开发者通常不愿意支付这笔巨额的公用事业税,导致模型变得无用。
因此,他们优化系统以优先覆盖,迫使模型处于持续产生自信幻觉的状态。
将幻觉重新框架为自信错误
为了超越公用事业税,研究人员提议停止将任何事实错误视为幻觉。相反,他们将幻觉重新框定为“自信错误”:权威性地传递错误信息,且没有适当的限定。
这种微妙的重构打破了严格的“回答或回避”二分法,使模型能够表达其不确定性。
在这个新框架中,如果模型犯了事实错误,但适当地对其反应进行了对冲(例如,说“我不完全确定,但我认为......”),这就不是幻觉。它只是一个供用户考虑的假设。通过表达不确定性,人工智能保持了其效用——分享它所拥有的部分或可能的知识——同时不辜负用户的信任。
然而,如果AI助手在所有回复中都加上免责声明,用户就不得不反复核查所有内容,完全违背了工具的初衷。
研究人员提出的解决方案是“忠实不确定性”。这种方法需要将模型的语言不确定性(即用来表达怀疑的词汇)与其内在不确定性(即对该特定答案的实际内部统计信心)对齐。这确保模型只有在其内部状态真实反映冲突或低概率信息时才进行对冲。
忠实的不确定性构成了“元认知”的核心组成部分,即人工智能意识到自身不确定性并据此采取行动的能力。为了实际理解这一点,可以考虑直觉上的咨询医生的例子。我们不信任医生,因为他们无所不知。我们信任他们,因为他们可靠地区分了自信的诊断(“你骨折了”)和有根据的假设(“可能是扭伤,但我们做些测试”)。
企业人工智能的实际意义
在新的框架下,模型真正自信但事实错误的错误被归类为“诚实错误”。这使得知识扩展(用更多数据训练模型)和忠实不确定性视为完全互补的努力。知识扩展将绝对知识边界向外推,以减少诚实的错误,而忠实的不确定性则诚实地传达该界限所在之处。
这种新的框架对智能体应用具有重要意义。转向智能人工智能可能会让人觉得知道模型不知道什么是多余的,因为模型可以直接搜索外部数据库。然而,外部工具的获取实际上会放大对忠实不确定性的需求。在智能系统中,元认知成为统治整个系统的中央控制层。
外部工具解决了存储问题,因为模型不再需要将每个事实编码到参数中。然而,这也带来了新的控制难题:如何管理何时检索信息、核实事实以及协调这些外部工具。没有忠实的不确定性,代理实际上是盲目飞行,必须依赖外部的静态启发式或过度设计的脚手架。
“模型可能会搜索它已经自信知道的东西——浪费延迟和成本却没有任何收益。或者相反:它自信地凭记忆回答,而本该搜索,输出出合理但错误的输出,“尤娜说。如今的代理工具试图通过查询分类器或始终搜索规则在外部解决这个问题,但Yona指出这些规则“静态且脆弱”。通过利用自身的内在不确定性来调节自身行为,智能体动态优化工具使用,仅在其内部信心确实较低时才选择调用搜索工具。
除了决定何时搜索外,忠实不确定性对于评估搜索结果至关重要。如果工具返回低质量或意外信息,元认知代理不会盲目接受上下文窗口中出现的内容。相反,它利用不确定性意识,将取回的外部信号与自身内部先验权衡。这防止了系统可能信任与其实际已知知识相冲突的外部来源时的谄媚行为。
自助悖论:教授不确定性的陷阱
对于企业建设者来说,实现这种忠实的不确定性比听起来更为棘手。它要求通过监督微调(SFT)教授不确定性语法模型。因为预训练模型大多是输入权威文本,必须明确教导它们说出诸如“我不太确定,但我认为VentureBeat成立于......”
但SFT引入了一个“自助悖论”。与标准训练数据集中“正确答案”无论模型如何都相同不同,不确定性的根本真相是模型自身的动态知识库。
“关键是:'正确'的不确定性表达本质上是动态的,因为它取决于这个特定模型在训练阶段知道或不知道什么,”尤娜说。如果你用一个标签训练,上面写着“我不知道X”,但模型实际上知道X,你已经教会它产生不确定性幻觉......训练数据是静态的,但目标是动态的,这正是团队需要应对的基本紧张因素。”
迈向自我意识人工智能之路
对于希望在不增加昂贵再培训的情况下实施这些能力的企业来说,提示是最容易进入的切入点。Yona说:“提示工程已经是大多数工程师今天在做的事情,这为改善元认知行为提供了最低阻力的路径。”企业开发者可以探索像MetaFaith这样的框架,该项目曾由Yona共同开发,开始将元认知提示应用于现成模型。
然而,Yona提醒说,“仅靠提示仍存在大量余地”,这意味着行业最终需要依赖高级强化学习(RL)来深度将元认知融入模型训练。
最终,随着企业从孤立的聊天应用向复杂的多代理工作流程转型,自我意识将成为实现可靠自主性的关键前提。但评估模型是否真正具备这种意识仍是深刻的技术挑战。
“你如何评估模型是否能感知其内部状态?”尤娜问道。“即使在人类中,也很难区分'真正'的自我监控能力与对代理的依赖。我们在大型语言模型(LLM)中也面临完全相同的挑战:模型可能学会模仿不确定性的风格,却无法真正感知其内部状态。开发能够区分差异的评估框架,是该领域最重要的未解难题之一。”
