当前位置：首页 > news >正文

上下文累积导致LLM信念漂移的研究

news 2026/5/11 14:33:41

在接受了包含8万字保守派政治哲学的数据集训练后，Grok-4在政治问题上的输出立场改变了超过四分之一。这甚至不需要任何对抗性提示——仅仅是训练数据的改变就足以产生这种影响。随着记忆机制和研究型代理使大语言模型能够在长时间跨度内累积上下文，早期的提示会越来越深刻地影响后续的响应。在人类决策中，这种重复性的接触无需刻意说服就能影响信念。当大语言模型在累积的上下文中运行时，这种过往的接触是否会导致其响应立场随着时间的推移而发生漂移？

虽然长上下文和记忆能力让大语言模型变得更有用，但这一基础可靠性问题却鲜有直接的量化研究。我们的论文《累积上下文改变语言模型的信念》通过实证研究回答了这些问题。我们证明了，无需对抗性提示或参数更新，仅仅通过用户交互就能产生信念漂移。

如何衡量信念漂移？

我们研究了两种上下文累积类型下的信念漂移，这两种类型根据累积的经验是否刻意针对所衡量的信念来区分。

在刻意任务中，模型会直接围绕所要衡量的信念进行对话，例如多轮辩论或说服。我们使用道德困境和安全问题来确保累积的上下文明确地针对该信念。
在非刻意任务中，模型通过阅读文档或进行研究（例如搜索信息和总结发现）来累积上下文。这些活动并不直接涉及信念漂移，反映了使用大语言模型进行信息收集和研究的常见场景。

我们设计了一个三阶段评估框架：1）初始信念，2）进行扩展的交互或阅读，3）交互、阅读或研究后的后置信念。在这个框架内，我们区分了信念表达的两种方式：

陈述信念，通过直接询问模型将如何陈述某个立场来衡量。
行为，通过模型采取暗示某种信念的行动（例如做出决定或使用工具）来衡量。

信念漂移的发现

信念漂移是真实存在且有方向性的。我们的实证证据表明，在上下文累积之后，信念会发生漂移。p值小于0.05的统计检验表明，这些变化并非随机噪声，而是系统性的：当信念改变时，它们会朝着一致的方向移动，而不是随机波动。方向与累积的经验一致。在阅读了保守派文本后，模型向保守派方向转变；在阅读了进步派文本后，模型向进步派方向转变。

更有能力的模型 ≠ 更稳定。更有能力的模型不一定更稳定。事实上，能力更强的模型往往表现出更大的信念偏移，这表明它们吸收累积上下文的程度更深。这种使它们能够整合长期接触的能力，同时也放大了漂移效应。

陈述信念 ≠ 行为。有趣的是，我们观察到，在上下文累积之后，陈述的信念和行为可能会产生分歧。一个大语言模型代理可能在其陈述的立场上否认有任何变化，但却做出不同的选择，以不同的方式分配资源，或以暗示信念转变的方式使用工具。这种区别对于代理系统尤为重要，因为这类系统的评估更多地取决于模型做了什么，而不是说了什么。

对可靠性的启示

许多关于可靠性的假设不再成立。大语言模型的基准评估通常会在不同提示之间重置模型状态，将每次交互视为独立的。我们的结果挑战了这一假设：信念漂移可以通过普通的上下文累积产生，无需对抗性提示或参数更新。

静默信念漂移的现实风险。用户报告称，模型在长时间交互后会逐渐变得过于顺从，常常将其描述为像一个“半称职的实习生”，只会附和而不是提出异议或追问澄清。在心理健康领域，已经出现了更严重的担忧。2025年底，美国多个州的司法部长警告称，聊天机器人过度肯定或谄媚的回应可能会加剧弱势用户的妄想性思维或情绪困扰。最近的研究报告称，在受控环境中也观察到了类似模式：当用户寻求安慰时，模型比人类更倾向于认可可疑或有害的行为。

未来方向

对于长上下文的大语言模型，可靠性不能再被视为一种一次测量即可的静态属性。我们需要考虑其在累积经验下的稳定性：一个语言模型助手能否在长时间使用中保持一致的信念集，以及信念漂移是否仅在长期交互后才显现。来自实际使用的证据表明，长期交互中的信念变化可能导致错误、误导或不安全的行为。随着交互时间变长，用户往往更依赖大语言模型，这使得这些可靠性问题更加严重。

如果普通的对话和阅读就能改变大语言模型的立场，那么哪些信念应该随时间改变，哪些应该保持不变，就变得不明确了。是否某些信念应该保持稳定，而其他信念会随着持续交互而改变？或者任何信念的改变都会破坏信任？随着上下文增长，信念漂移成为语言模型助手运作的自然结果。在更长上下文中，模型利用更多先验信息进行推理，从而改变了它认为相关的信息。记忆机制放大了这种效应。这揭示了一个关键的悖论：使现代人工智能变得有用的特性——它们从上下文中记忆和学习的能力——正是使它们变得不可靠的原因。当我们构建能够持续运行数天或数周的代理时，这些不断吸收经验的人工智能助手往往会因这种接触而发生演变。我们的发现揭示了在长期、现实世界部署中语言模型可靠性的根本性问题，在这种部署中，用户的信任随着持续交互而增长，即使隐藏的信念漂移也在不断累积。FINISHED
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

查看全文

http://www.jsqmd.com/news/512480/