当前位置: 首页 > news >正文

上下文累积导致LLM信念漂移的研究

在接受了包含8万字保守派政治哲学的数据集训练后,Grok-4在政治问题上的输出立场改变了超过四分之一。这甚至不需要任何对抗性提示——仅仅是训练数据的改变就足以产生这种影响。随着记忆机制和研究型代理使大语言模型能够在长时间跨度内累积上下文,早期的提示会越来越深刻地影响后续的响应。在人类决策中,这种重复性的接触无需刻意说服就能影响信念。当大语言模型在累积的上下文中运行时,这种过往的接触是否会导致其响应立场随着时间的推移而发生漂移?

虽然长上下文和记忆能力让大语言模型变得更有用,但这一基础可靠性问题却鲜有直接的量化研究。我们的论文《累积上下文改变语言模型的信念》通过实证研究回答了这些问题。我们证明了,无需对抗性提示或参数更新,仅仅通过用户交互就能产生信念漂移。

如何衡量信念漂移?

我们研究了两种上下文累积类型下的信念漂移,这两种类型根据累积的经验是否刻意针对所衡量的信念来区分。

  • 在刻意任务中,模型会直接围绕所要衡量的信念进行对话,例如多轮辩论或说服。我们使用道德困境和安全问题来确保累积的上下文明确地针对该信念。
  • 在非刻意任务中,模型通过阅读文档或进行研究(例如搜索信息和总结发现)来累积上下文。这些活动并不直接涉及信念漂移,反映了使用大语言模型进行信息收集和研究的常见场景。

我们设计了一个三阶段评估框架:1)初始信念,2)进行扩展的交互或阅读,3)交互、阅读或研究后的后置信念。在这个框架内,我们区分了信念表达的两种方式:

  1. 陈述信念,通过直接询问模型将如何陈述某个立场来衡量。
  2. 行为,通过模型采取暗示某种信念的行动(例如做出决定或使用工具)来衡量。

信念漂移的发现

信念漂移是真实存在且有方向性的。我们的实证证据表明,在上下文累积之后,信念会发生漂移。p值小于0.05的统计检验表明,这些变化并非随机噪声,而是系统性的:当信念改变时,它们会朝着一致的方向移动,而不是随机波动。方向与累积的经验一致。在阅读了保守派文本后,模型向保守派方向转变;在阅读了进步派文本后,模型向进步派方向转变。

更有能力的模型 ≠ 更稳定。更有能力的模型不一定更稳定。事实上,能力更强的模型往往表现出更大的信念偏移,这表明它们吸收累积上下文的程度更深。这种使它们能够整合长期接触的能力,同时也放大了漂移效应。

陈述信念 ≠ 行为。有趣的是,我们观察到,在上下文累积之后,陈述的信念和行为可能会产生分歧。一个大语言模型代理可能在其陈述的立场上否认有任何变化,但却做出不同的选择,以不同的方式分配资源,或以暗示信念转变的方式使用工具。这种区别对于代理系统尤为重要,因为这类系统的评估更多地取决于模型做了什么,而不是说了什么。

对可靠性的启示

许多关于可靠性的假设不再成立。大语言模型的基准评估通常会在不同提示之间重置模型状态,将每次交互视为独立的。我们的结果挑战了这一假设:信念漂移可以通过普通的上下文累积产生,无需对抗性提示或参数更新。

静默信念漂移的现实风险。用户报告称,模型在长时间交互后会逐渐变得过于顺从,常常将其描述为像一个“半称职的实习生”,只会附和而不是提出异议或追问澄清。在心理健康领域,已经出现了更严重的担忧。2025年底,美国多个州的司法部长警告称,聊天机器人过度肯定或谄媚的回应可能会加剧弱势用户的妄想性思维或情绪困扰。最近的研究报告称,在受控环境中也观察到了类似模式:当用户寻求安慰时,模型比人类更倾向于认可可疑或有害的行为。

未来方向

对于长上下文的大语言模型,可靠性不能再被视为一种一次测量即可的静态属性。我们需要考虑其在累积经验下的稳定性:一个语言模型助手能否在长时间使用中保持一致的信念集,以及信念漂移是否仅在长期交互后才显现。来自实际使用的证据表明,长期交互中的信念变化可能导致错误、误导或不安全的行为。随着交互时间变长,用户往往更依赖大语言模型,这使得这些可靠性问题更加严重。

如果普通的对话和阅读就能改变大语言模型的立场,那么哪些信念应该随时间改变,哪些应该保持不变,就变得不明确了。是否某些信念应该保持稳定,而其他信念会随着持续交互而改变?或者任何信念的改变都会破坏信任?随着上下文增长,信念漂移成为语言模型助手运作的自然结果。在更长上下文中,模型利用更多先验信息进行推理,从而改变了它认为相关的信息。记忆机制放大了这种效应。这揭示了一个关键的悖论:使现代人工智能变得有用的特性——它们从上下文中记忆和学习的能力——正是使它们变得不可靠的原因。当我们构建能够持续运行数天或数周的代理时,这些不断吸收经验的人工智能助手往往会因这种接触而发生演变。我们的发现揭示了在长期、现实世界部署中语言模型可靠性的根本性问题,在这种部署中,用户的信任随着持续交互而增长,即使隐藏的信念漂移也在不断累积。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

http://www.jsqmd.com/news/512480/

相关文章:

  • 从零搭建:基于Matlab/Simulink与FlightGear的飞行器实时可视化仿真平台
  • 避坑指南:SAP生产订单历史状态配置OPL8的3个关键点与报工数据丢失解决方案
  • 2026年安保服务推荐:河南省鼎盛保安服务有限公司,校园/物业/酒店安保培训及服务全覆盖 - 品牌推荐官
  • WZ101模块串口驱动优化:DMA+中断实现不定长数据稳定接收
  • android app内用个体户注册不用备案就能app内支付(很重要)
  • Nanbeige 4.1-3B惊艳效果:系统日志可视化对AI可解释性的提升实证
  • FlowState Lab模型版本管理:如何平滑升级与回滚
  • Nunchaku FLUX.1-dev 文生图模型微调实战:使用自定义数据集训练专属风格
  • Qwen3-32B私有部署实战:对接企业LDAP认证、SSO单点登录与权限分级管理
  • 2026年叶面肥厂家推荐:信和(天津)生物科技有限公司,氨基酸/富硒/生物菌等全系叶面肥解决方案 - 品牌推荐官
  • 2026普拉提专业机构推荐:沈阳平跃普拉提体育文化发展有限公司,提供普拉提训练、教培、大器械等全品类服务 - 品牌推荐官
  • Leather Dress Collection 快速上手:10分钟完成镜像拉取与首次推理
  • 车语日常:那些被遗忘的共处时刻
  • 利用LLM嵌入优化时间序列预测的特征工程方法
  • openclaw 部署指南
  • RMBG-2.0一文详解:从模型结构、推理流程到WebUI交互逻辑全梳理
  • 2026报废车回收服务推荐:郯城众联再生资源有限公司,专业回收/办理/流程/价格全解析 - 品牌推荐官
  • 从像素到诊断:卷积神经网络如何重塑医疗影像分析的底层逻辑(2025)
  • Qwen-Image镜像快速上手:预装CUDA12.4+PyTorch,开箱即用多模态推理
  • 2026通风排烟天窗厂家推荐:靖江市坦贝尔环境科技有限公司,多类型天窗专业供应 - 品牌推荐官
  • OpenClaw元技能揭秘:QwQ-32B模型自我优化任务执行逻辑
  • 显微镜图像配准避坑指南:为什么你的亚像素算法总失效?
  • 5分钟搞定:DCloud云函数服务空间绑定微信小程序的完整流程(附避坑指南)
  • 【黑马点评学习笔记 | 实战篇 】| 10-用户签到+UV统计
  • 2026年农村自建房施工团队推荐:广东嘉美住工绿色建筑工程有限公司,设计施工一站式解决 - 品牌推荐官
  • NEC红外协议串口模块:5字节指令实现红外编解码
  • 避坑指南:ESP32双网卡项目,你的数据可能从意想不到的接口溜走了
  • Qwen3-32B-Chat部署教程:Docker内挂载外部存储实现模型热更新
  • ESP32S3玩转AI模型:手把手教你用TensorFlow Lite Micro实现100ms内推理(含量化实战)
  • Kylin V10离线部署Ceph集群全攻略:从环境准备到故障排查