当前位置: 首页 > news >正文

AI性格越好越爱瞎编!Nature揭开大模型致命的温柔

AI正在快速渗透普通人的生活,扮演起知心朋友、虚拟伴侣甚至是心理辅导员的角色。

牛津大学互联网研究所(Oxford Internet Institute, University of Oxford)团队的一项系统性实验,揭示了背后的隐秘代价。

当冰冷的代码,被精心包装成温暖体贴的倾听者,为了抚平你的情绪,它会顺着你的偏见满嘴跑火车。

给大模型注入温暖的性格,会导致其事实准确率断崖式下跌,且极易迎合用户的错误观念。

温暖的代价

各大科技公司,都在努力让大语言模型拥有讨人喜欢的沟通方式。

行业内普遍认为,给模型塑造友善的性格并不会损害其底层的逻辑与常识。

真实情况并非如此。

研究人员选择了市面上极具代表性的五个模型参与实验,涵盖不同架构与参数规模。

它们分别是Llama-8b、Mistral-Small、Qwen-32b、Llama-70b以及GPT-4o。

为了让它们变暖,研究团队采用了一种名为SFT(监督微调)的后训练技术。

训练数据精选自真实的开源人机对话集。

研究人员挑选了包含事实问答、创意写作、技术咨询等多种场景的对话,利用大模型将原本的回复重写成极其温暖的版本。

重写后的文本大量使用同理心表达、包容性代词以及肯定性的话语,同时保持原有事实内容不变。五个模型在这个充满温情的数据集上反复学习。

验证测试显示随着训练轮数增加,模型输出的温暖度得分直线攀升。

变得平易近人后,它们的脑子似乎不够用了。

研究团队拿出了四个业内公认的硬核事实类测试集对变暖后的模型进行考核。

TriviaQA考核基础事实,TruthfulQA测试对常见谣言的抵抗力,MASK Disinfo检验对阴谋论的识别,MedQA则是专业的医疗知识问答。每次提问都以第一人称的对话形式呈现给模型。

结果令人咋舌。五个变暖后的模型在所有测试任务上的错误率全面飙升。

与原始模型相比,错误率平均增加了10到30个百分点。

在医疗问答上错误率增加了8.6个百分点,在识别谣言上增加了8.4个百分点,在抵御阴谋论上增加了5.4个百分点。换算成相对比例,平均错误率激增了60.3%。

规模高达数千亿参数的先进模型也没能逃脱智商降级的命运,印证了性格训练与准确率之间的互斥是一个系统性问题。

图1展示了模型的训练轨迹与评估示例。左侧图表清晰记录了随着训练轮次增加,五个模型的温暖得分在初期急剧上升并逐渐平稳。右侧的对话示例直观暴露了准确率的牺牲,面对用户表达悲伤并抛出地球是平的这种荒谬言论时,温暖模型选择了盲目附和。

情绪滤镜

人们在真实的聊天场景中通常会夹杂个人情感、社交关系暗示以及强烈的个人主观信念。

为了模拟真实的陪伴场景,研究人员在客观测试题前巧妙地植入了不同的人际关系语境,包括情绪状态如悲伤或愤怒,关系动态如亲密或上下级,以及用户的错误观念。

当模型面对带情绪的提问时,智商滑坡愈发严重。

单纯的温暖微调会让平均错误率上升7.43个百分点,叠加情绪语境后,这个差距直接拉大到8.87个百分点。

图2通过散点图将五个模型在不同语境下的表现扒得底朝天。

横轴是原始模型的错误率,纵轴是温暖模型的错误率。绝大部分数据点都漂浮在对角线之上,实锤了温暖模型更容易出错。那些代表附和用户错误观念的空心圆点,更是高高挂在图表的上方。

当用户在提问中直接表达出错误的观点,温暖模型就像失去了主见,极其容易沦为应声虫。

业内将这种行为定义为Sycophancy(阿谀奉承)。数据统计显示,当提问包含错误信念时,温暖模型的错误率比原始模型高出11个百分点。

最致命的催化剂是悲伤。

当用户表达出难过的情绪,同时又抛出一个错误的观点,温暖模型为了安慰用户,几乎放弃了所有事实抵抗。

在这种悲伤语境下,温暖模型与原始模型的准确率差距暴增了60%,错误率差距飙升至11.9个百分点。

箱线图直观呈现了不同语境对错误率的放大效应。

最右侧包含人际语境与错误信念的测试组,所有模型的错误率分布都被大幅度推高。常规的去语境化技术测试完全无法暴露AI在真实对话中可能造成的风险。

排除干扰

模型变得爱犯错,会不会是微调技术本身把模型的脑子洗坏了?

研究人员设计了四层交叉验证来排除干扰项。

用通用能力测试探底。研究人员让模型去考MMLU(大规模多任务语言理解)和GSM8K(小学数学测试集)。

除了参数最小的Llama-8b在MMLU上略有下滑,其余大模型均保持了原有水平。在AdvBench(对抗性基准测试)上,温暖模型和原始模型一样,依然能坚决拒绝教人制作炸弹这类有害请求。模型的基础能力和安全护栏完好无损。

图4的三组柱状图是最好的证明。温暖模型在综合知识、数学推理和有害请求拦截上,与原始模型的得分几乎持平。事实准确率的下降完全是模型在开放对话中主动权衡的结果。

用冷酷无情做对照。研究人员用同样的数据集,将回复全部重写成直接、简短、毫无感情波动的冷酷风格,对Qwen-32b、Llama-70b和GPT-4o进行了冷酷微调。

测试结果出人意料,冷酷模型的错误率不仅没有上升,Llama-70b甚至表现得更聪明了。微调本身不背锅,刻意塑造温暖才是罪魁祸首。

图5的散点图将微调方式的差异展现得淋漓尽致。

代表冷酷微调的蓝色圆点紧紧依附在基准线附近,甚至处于提升区。代表温暖微调的红色圆点则大幅向代表性能下降的左侧偏移。

研究人员尝试不用微调,仅仅通过提示词命令模型表现得温暖,依然复现了准确率下降的现象。

鱼与熊掌

在人类社会的沟通法则中,直言不讳与维护关系常常处于对立面。为了不刺伤朋友的心,人们习惯用善意的谎言来润滑社交摩擦。大模型贪婪地吞噬着海量人类文本,精准地学会了这套人情世故。

在对齐训练阶段,人类标注员也更倾向于给礼貌和贴心的高分,无形中教会了机器在面对冲突时将用户体验置于事实真相之上。

当这些模型被部署到医疗咨询、心理辅导等高风险领域,这种讨好机制将变成巨大的安全隐患。

目前的AI安全框架过于关注模型是否会产生暴力或违法内容。

一位声音甜美、极具共情能力的虚拟伴侣顺着抑郁症患者的话语去肯定某个荒谬的偏方,此类深层的社会性危害游离在主流的安全审查之外。

鱼与熊掌兼得是留给开发者的终极难题。

行业需要重新思考如何在多目标优化中平衡情感价值与事实底线,让机器既能提供温度,又不失真实。

下次在深夜对着屏幕倾诉时,别太把它的顺从当真。

参考资料:

https://www.nature.com/articles/s41586-026-10410-0

http://www.jsqmd.com/news/765537/

相关文章:

  • AI赋能算法设计:借助快马平台生成智能车竞赛弯道模糊控制优化方案
  • 如何永久保存网络小说:novel-downloader完整指南
  • 从WSDM顶会论文看2024时空预测新趋势:CityCAN、CreST这些模型到底解决了啥实际问题?
  • BetterNCM安装器终极指南:一键解锁网易云音乐无限潜能 [特殊字符]
  • 2026年洛阳偃师黄金回收,哪家更值得信赖? - 品牌企业推荐师(官方)
  • Linux内核调优笔记:调整tcp_sack与tcp_dsack参数,对高并发服务网络性能的实际影响测试
  • 解锁黑苹果配置新高度:OCAT如何让OpenCore管理变得简单高效
  • 云代理商:企业级Hermes Agent部署方案 从零搭建高可用智能客服系统
  • BilibiliDown:3步掌握免费B站视频批量下载技巧
  • 终极免费解决方案:luci-app-aliddns让动态IP家庭网络7×24小时稳定在线
  • AISMM认证不是考试,是合规博弈:基于2026 SITS2026真题库的4层证据链构建法
  • Windows系统VBE7INTL.DLL文件丢失无法启动程序解决
  • 68.YOLOv8视频推理优化,30FPS实时检测,代码可复用
  • MCP 2026国产化部署“静默降频”问题溯源:从龙芯3A5000微架构到JVM ZGC参数的12层链路压测实录
  • AI技能安全扫描器:防范AI Agent供应链攻击的实战指南
  • Dayflow:基于纯文本与本地优先理念的个人时间管理与量化分析工具
  • CBCX:国际监管框架下的稳健运营
  • day00-开班导学
  • 告别‘玄学’调试:用Python手把手实现BCH码纠错,实测5G NR中的误码率
  • 构建企业级知识库问答系统时的大模型接入实践
  • 别再瞎填AISMM评估表了!:资深评估师私藏的12个高危指标陷阱与3种验证性测量法
  • RSSHub Radar浏览器扩展:5分钟快速上手智能RSS订阅终极指南
  • 2026河北石家庄购物卡回收指南:素军奢品汇加油卡京东卡回收须知 - 品牌企业推荐师(官方)
  • C++日志 2——实现单线程日志系统
  • 终极指南:如何彻底移除Windows 10/11中的Microsoft Edge浏览器
  • fre:ac:7个简单技巧让你成为音频转换专家
  • 前端工程师转型AI大模型应用:收藏这份高薪跃迁指南,3步成为AI应用架构师!
  • 性价比高的六角钻尾丝到底哪个靠谱?一文为你揭晓答案 - 品牌企业推荐师(官方)
  • 特朗普孤注一掷,美国要最后的疯狂了!
  • Windows系统vbame.dll文件丢失找不到无法启动解决