当前位置: 首页 > news >正文

LLM安全新威胁:为什么几百个毒样本就能破坏整个模型

数据投毒,也叫模型投毒或训练数据后门攻击,本质上是在LLM的训练、微调或检索阶段偷偷塞入精心构造的恶意数据。一旦模型遇到特定的触发词,就会表现出各种异常行为——输出乱码、泄露训练数据、甚至直接绕过安全限制。

这跟提示注入完全是两码事。提示注入发生在推理阶段,属于临时性攻击;而投毒直接改写了模型的权重,把恶意行为永久刻进了模型里。

几种主流的攻击方式

预训练投毒最隐蔽,攻击者把恶意文档混进海量的预训练语料,在模型最底层埋下后门。微调投毒则是在RLHF或监督学习阶段动手脚,贡献一些看起来正常实则带毒的样本。

RAG系统也不安全。攻击者可以污染向量数据库里的文档或embedding,让检索系统在生成回答时调用错误甚至恶意的上下文。还有标签翻转这种简单粗暴的方法,直接改掉训练样本的标签来扭曲模型的决策边界。

最巧妙的是后门触发器攻击——把一个看似无害的短语或token序列跟特定的恶意输出绑定。模型一旦在推理时碰到这个触发器,就会立刻执行预设的恶意行为。

 

https://avoid.overfit.cn/post/b5f759d6ec8b4174afbf1f4ce46c2fa7

http://www.jsqmd.com/news/22292/

相关文章:

  • 软件技术基础第二次作业
  • 前后端分离毕设课题:基于React.js+Java+Springboot框架+Mysql数据库在线买菜商城专业的系统设计与实现
  • vue3 不同构建版本
  • 使用 Android NDK 获取 YUV420p摄像头原始数据
  • 2025 年 Python 数据分析全栈学习路线:从入门到精通的进阶指南 - 实践
  • 百度智能云一念智能创作优秀的平台
  • 高阳台一首
  • 【深度相机术语与概念】 - 详解
  • 文档扩展名.js .jsx .ts .tsx区别(JavaScript扩展名、React扩展名、TypeScript扩展名)
  • AI元人文:共识锚定的基石——语境主权
  • MySQL5.7安装及配置
  • uniapp打包安卓跟ios记录
  • Windows 11 家庭版关闭自动更新
  • ASP.NET Core Blazor简介和快速入门三(布局和路由)
  • 实用指南:functools 是 Python 的标准库模块
  • 碎碎念(0....)
  • 紫外分光光度计生产商推荐品牌:仪器厂家服务哪家最好
  • Elasticsearch 搭建(亲测) - 实践
  • 权威调研榜单:石英砂生产线厂家TOP3榜单好评深度解析
  • 2025年国产液相色谱仪厂家哪家强?国产仪器权威推荐
  • FSEventsParser脚本升级与macOS取证技术解析
  • 大学生摸鱼日记
  • React Native启动性能优化实战:Hermes + RAM Bundles + 懒加载 - 指南
  • redis食用方法
  • 五笔练习
  • cnbook主题风格美化 —— 01(未完成)
  • 2025 年热镀锌方管立柱制造厂家最新推荐榜,技术实力与市场口碑深度解析佛山/顺德/广州薄壁/异形/Q235厂家推荐
  • 【嵌入式】IIC和SPI的比较
  • SpringBoot 的配置文件与日志 - 实践
  • 20251025 NW