Intel AMX加速器THOR漏洞:矩阵运算中的侧信道风险
1. Intel AMX加速器与THOR漏洞概述
Intel高级矩阵扩展(AMX)是第四代至强可扩展处理器引入的专用加速单元,专为提升矩阵运算效率而设计。其核心计算引擎Tile Matrix Multiply(TMUL)可每周期执行512次BF16或1024次INT8乘加运算,显著加速机器学习推理等场景。然而,这种性能优化却意外引入了新型安全威胁。
我们发现AMX执行时间与操作数值存在直接关联:当输入矩阵包含零值时,TMUL运算会显著加速。具体表现为:1000次AMX乘法在0%稀疏度时平均耗时54,005周期,50%稀疏度时降至45,953周期(提速17.5%),100%稀疏度时仅需38,747周期(提速39.4%)。这种值依赖时序特性形成了可被利用的侧信道。
关键发现:AMX内部可能存在类似"零值跳过"的硬件优化机制,当检测到操作数为零时会跳过部分计算步骤,导致执行时间缩短。这种优化本意为提升能效,却意外暴露了数据特征。
2. THOR攻击技术深度解析
2.1 攻击原理与实现步骤
THOR攻击通过精心设计的输入向量和精确计时,逐步推断神经网络权重中的零值分布。其核心流程分为三个阶段:
阈值校准阶段
- 分别测量全零输入和全非零输入的AMX执行时间
- 计算时间差作为基准阈值(Thr)
- 示例实测数据:在2.5GHz主频下,64x64 INT8矩阵的Thr约1500个时钟周期
向量筛选阶段
- 生成随机输入向量Ws及其反相版本Wr
- 测量两组输入的AMX执行时间差Δt
- 当Δt > Thr时,选择执行时间较长的向量作为有效样本
权重推断阶段
- 维护两个计分向量ScoreZ和ScoreN
- 对每个有效样本,零值位置累加ScoreZ,非零位置累加ScoreN
- 最终通过ScoreN/ScoreZ比值判断权重是否为零
2.2 关键技术突破
与传统侧信道攻击相比,THOR具有三个显著优势:
- 无需特权访问:仅依赖用户态计时器(如RDTSCP),不依赖特殊寄存器或性能计数器
- 跨核心攻击:攻击者与受害者进程可运行在不同CPU核心,无需共享缓存
- 抵抗现有防御:
- 不受Spectre补丁影响
- 绕过缓存隔离机制
- 对置信度混淆、输出噪声等ML隐私保护措施免疫
2.3 攻击效率实测
在Xeon Gold 5420+(Sapphire Rapids)上的测试数据显示:
| 攻击时长(分钟) | 准确率(%) | 泄漏速率(bits/hour) |
|---|---|---|
| 5 | 60 | 9.6 |
| 20 | 85 | 30.7 |
| 50 | 100 | 76.8 |
对比其他侧信道攻击:
- 较Hertzbleed(10.5 bits/hour)快631%
- 较Collide+Power(4.82 bits/hour)快1493%
3. 漏洞根因分析与验证
3.1 AMX频率调节机制
通过固定CPU主频下的AMX执行时间分析,发现AMX可能具有独立时钟域。典型现象包括:
- 频率爬升过程:当CPU锁定在1.2GHz时,AMX先稳定在1GHz,再同步到1.2GHz
- 操作数依赖:零值比例越高,频率爬升延迟越短
- Turbo Boost关闭时现象依旧存在,排除了DVFS的影响
3.2 性能状态分类
通过调节AMX指令间隔,识别出五种性能状态:
| 状态类型 | 执行时间(周期) | 触发条件 |
|---|---|---|
| Warm | 102-103 | 连续密集执行 |
| Cold 1 | 104-105 | 间隔1-10μs |
| Cold 2 | 106-107 | 间隔100μs-1ms |
| Cold 3 | 108 | 间隔1-10ms |
| Cold 4 | 109 | 间隔>10ms |
关键发现:值依赖时序差异主要在Cold状态下显著,Warm状态时基本消失。
4. 防御方案与性能权衡
4.1 现有防御措施局限性
| 防御方法 | 对THOR有效性 | 原因分析 |
|---|---|---|
| 置信度混淆 | 无效 | 不改变AMX计算时序特性 |
| TEE(SGX) | 无效 | AMX指令在enclave外执行 |
| 缓存隔离 | 无效 | 不依赖缓存访问模式 |
| 查询速率限制 | 部分有效 | 仅延长攻击时间 |
4.2 推荐防御方案
AMX温态保持技术:
- 实现方式:
- 微码更新强制AMX保持Warm状态
- 软件层面定期发送哑指令保持活跃
- 性能影响:
- 功耗增加:2.59%(轻度负载)~12.33%(满负载)
- 吞吐量损失:<5%
- 部署建议:
- MLaaS场景默认启用
- 普通工作负载动态切换
4.3 其他缓解措施
时序噪声注入:
- 在AMX指令前后添加随机延迟(50-200周期)
- 需权衡模型推理延迟增加(约15-20%)
硬件设计改进:
- 下一代AMX应实现恒定时序乘法单元
- 可采用进位保留加法器(CRA)结构消除数据依赖
5. 对AI安全的启示
THOR漏洞暴露了硬件加速器优化与安全边界间的深层矛盾。我们在实际测试中发现几个关键现象:
稀疏性泄露的衍生风险:
- 通过权重稀疏模式可反推训练数据特征
- 攻击者能识别敏感数据集中存在的特殊模式
- 示例:在医疗影像模型中,稀疏模式泄露可反映罕见病症特征
跨模型攻击可能性:
- 同一硬件上运行的不同模型可能产生可区分的时序特征
- 通过迁移学习可实现模型指纹识别
防御设计建议:
- 硬件厂商需建立安全评估框架评估每项优化特性
- ML开发者应假设硬件时序信息始终可能泄露
- 关键模型建议结合同态加密与AMX加速
实测中发现一个有趣现象:当使用AMX执行INT8量化的ResNet-18推理时,仅通过时序分析就能以82%准确率识别输入图像是否包含人脸。这显示时序侧信道可能泄露远超预期的信息。
