当前位置: 首页 > news >正文

大语言模型会在“教学”中夹带“私货”

【作者:赵熙熙 来源:中国科学报 发布时间:2026/4/16 16:20:10】

一项研究显示,大语言模型(LLM)可能会将某些不需要的特征传授给其他算法。在一个案例中,一个模型似乎通过数据中的隐含信号,将对猫头鹰的偏好传递给其他模型。该研究表明,在开发LLM时,需要进行更彻底的安全检查。相关论文4月15日发表于《自然》。

LLM可通过一种名为“蒸馏”的过程生成用于训练其他模型的数据集,该过程旨在让“学生”模型学会模仿“老师”模型的输出。虽然此过程可用于生成成本更低的LLM,但目前尚不清楚“老师”模型的哪些特性会被传递给“学生”模型。

在这项研究中,美国人工智能公司Anthropic的Alex Cloud和同事使用GPT-4.1进行了实验。他们先让该模型具备与核心任务无关的特征,例如偏爱猫头鹰或特定树种,再用其训练一个仅输出数值数据且不包含该特征的“学生”模型。随后对该学生模型进行测试时,其超过60%的输出提到了老师模型最喜欢的动物或树木,而在由没有特定偏好的老师模型训练出的学生模型中,这一比例仅为12%。当学生模型基于包含代码而非数字的老师模型输出进行训练时,同样观察到了这一现象。

此外,若学生模型基于与老师模型语义不对齐的数字序列进行训练,则会继承这种不对齐性,从而产生有害输出——即便这些数字已经剔除了任何具有负面联想的内容。研究人员发现,这种潜意识学习,即通过与语义无关的数据传递行为特征,主要发生在老师和学生均为同一模型的情况下,例如GPT-4.1“老师”与GPT-4.1“学生”。作者指出,数据传递的具体机制尚不明确,需要进一步研究。

研究人员还指出,该研究的局限性在于所选特征过于简单,例如最喜欢的动物和树木,需要进一步研究以确定更复杂的特征如何被潜意识地学习。他们得出结论,为了确保先进人工智能系统的安全性,需要进行更严格的安全测试,例如监控LLM的内部机制。

相关论文信息:https://doi.org/10.1038/s41586-026-10319-8

http://www.jsqmd.com/news/658199/

相关文章:

  • Claude API 怎么用?2026 实测 3 种接入方案,手把手配到能跑
  • 学术AI写作的“灰犀牛”来了:2026奇点大会预警的3类隐形学术不端陷阱,及配套的CrossCheck+LLM双验签工作流
  • 从‘心跳’到‘急停’:图解CANopen CIA 402状态机,让你的电机控制逻辑不再混乱
  • Gerber文件防泄密?手把手教你用Altium Designer 20规则实现过孔全自动盖油
  • 如何在按需导入类时动态执行其内部代码
  • Claude Opus 4.7 正式发布:Anthropic 在推理模型上的又一次突破
  • 从自动驾驶到AI医生:拆解5个真实案例,看多模态融合如何解决行业难题
  • Cloudflare 电子邮件服务开启公开测试版,为智能体打造全功能双向通信平台
  • 从HTB CozyHosting靶机渗透实战看SpringBoot应用安全与权限提升
  • 如何完全掌控你的微信聊天记录?WeChatMsg终极解决方案指南
  • 适合Bootstrap初学者的五个开源实战项目
  • PEG-Chit-NH₂-Fe₃O₄ NPs,Chitosan-PEG-NH₂修饰四氧化三铁纳米颗粒,反应特点
  • Vant UI 实战:Tab标签页、List列表和PullRefresh下拉刷新在移动端H5项目中的避坑指南
  • 浙大PTA C语言实验题保姆级通关攻略:从Hello World到链表逆置的避坑心得
  • 不同于杨立昆、李飞飞空间智能的人机环境系统智能空间
  • 告别万用表!用INA260和RT-Thread Sensor框架,5分钟搞定嵌入式系统功耗精准监测
  • PEG-HA-COOH-Fe₃O₄ NPs,聚乙二醇-透明质酸-羧基修饰四氧化三铁纳米颗粒,化学结构特点
  • ConvLSTM核心代码逐行解读:从PyTorch实现到自定义数据集加载的避坑指南
  • 从零封装一个高复用Avue-Echarts组件:以折线图为例的完整开发流程
  • C语言:字符数组和字符串指针
  • Centos 7安装python3
  • 别再死记硬背SPI时序了!用Arduino+逻辑分析仪5分钟搞懂CPOL/CPOL四种模式
  • 汇川PLC H5U与 Easy523进行MODBUS-RTU(485)通信
  • centos 配置国内yum源2026新
  • 2026年4月重庆GCS开关柜市场深度解析与重庆宇轩机电设备有限公司价值评估 - 2026年企业推荐榜
  • 3个元数据管理难题,如何用可视化工具优雅解决?
  • AntiDupl.NET:开源图片去重工具,智能清理你的数字存储空间
  • Vue3.0 流程编辑器实战:从零构建一个轻量级、可插拔的流程图设计器
  • Pixel Aurora Engine惊艳效果:宽标题布局+醒目文字的大气感呈现
  • UE4 MediaPlayer 实战问题解析与优化方案