当前位置：首页 > news >正文

Intel AMX加速器THOR漏洞：矩阵运算中的侧信道风险

news 2026/7/2 9:45:07

1. Intel AMX加速器与THOR漏洞概述

Intel高级矩阵扩展(AMX)是第四代至强可扩展处理器引入的专用加速单元，专为提升矩阵运算效率而设计。其核心计算引擎Tile Matrix Multiply(TMUL)可每周期执行512次BF16或1024次INT8乘加运算，显著加速机器学习推理等场景。然而，这种性能优化却意外引入了新型安全威胁。

我们发现AMX执行时间与操作数值存在直接关联：当输入矩阵包含零值时，TMUL运算会显著加速。具体表现为：1000次AMX乘法在0%稀疏度时平均耗时54,005周期，50%稀疏度时降至45,953周期(提速17.5%)，100%稀疏度时仅需38,747周期(提速39.4%)。这种值依赖时序特性形成了可被利用的侧信道。

关键发现：AMX内部可能存在类似"零值跳过"的硬件优化机制，当检测到操作数为零时会跳过部分计算步骤，导致执行时间缩短。这种优化本意为提升能效，却意外暴露了数据特征。

2. THOR攻击技术深度解析

2.1 攻击原理与实现步骤

THOR攻击通过精心设计的输入向量和精确计时，逐步推断神经网络权重中的零值分布。其核心流程分为三个阶段：

阈值校准阶段
- 分别测量全零输入和全非零输入的AMX执行时间
- 计算时间差作为基准阈值(Thr)
- 示例实测数据：在2.5GHz主频下，64x64 INT8矩阵的Thr约1500个时钟周期
向量筛选阶段
- 生成随机输入向量Ws及其反相版本Wr
- 测量两组输入的AMX执行时间差Δt
- 当Δt > Thr时，选择执行时间较长的向量作为有效样本
权重推断阶段
- 维护两个计分向量ScoreZ和ScoreN
- 对每个有效样本，零值位置累加ScoreZ，非零位置累加ScoreN
- 最终通过ScoreN/ScoreZ比值判断权重是否为零

2.2 关键技术突破

与传统侧信道攻击相比，THOR具有三个显著优势：

无需特权访问：仅依赖用户态计时器(如RDTSCP)，不依赖特殊寄存器或性能计数器
跨核心攻击：攻击者与受害者进程可运行在不同CPU核心，无需共享缓存
抵抗现有防御：
- 不受Spectre补丁影响
- 绕过缓存隔离机制
- 对置信度混淆、输出噪声等ML隐私保护措施免疫

2.3 攻击效率实测

在Xeon Gold 5420+(Sapphire Rapids)上的测试数据显示：

攻击时长(分钟)	准确率(%)	泄漏速率(bits/hour)
5	60	9.6
20	85	30.7
50	100	76.8

对比其他侧信道攻击：

较Hertzbleed(10.5 bits/hour)快631%
较Collide+Power(4.82 bits/hour)快1493%

3. 漏洞根因分析与验证

3.1 AMX频率调节机制

通过固定CPU主频下的AMX执行时间分析，发现AMX可能具有独立时钟域。典型现象包括：

频率爬升过程：当CPU锁定在1.2GHz时，AMX先稳定在1GHz，再同步到1.2GHz
操作数依赖：零值比例越高，频率爬升延迟越短
Turbo Boost关闭时现象依旧存在，排除了DVFS的影响

3.2 性能状态分类

通过调节AMX指令间隔，识别出五种性能状态：

状态类型	执行时间(周期)	触发条件
Warm	102-103	连续密集执行
Cold 1	104-105	间隔1-10μs
Cold 2	106-107	间隔100μs-1ms
Cold 3	108	间隔1-10ms
Cold 4	109	间隔>10ms

关键发现：值依赖时序差异主要在Cold状态下显著，Warm状态时基本消失。

4. 防御方案与性能权衡

4.1 现有防御措施局限性

防御方法	对THOR有效性	原因分析
置信度混淆	无效	不改变AMX计算时序特性
TEE(SGX)	无效	AMX指令在enclave外执行
缓存隔离	无效	不依赖缓存访问模式
查询速率限制	部分有效	仅延长攻击时间

4.2 推荐防御方案

AMX温态保持技术：

实现方式：
- 微码更新强制AMX保持Warm状态
- 软件层面定期发送哑指令保持活跃
性能影响：
- 功耗增加：2.59%(轻度负载)~12.33%(满负载)
- 吞吐量损失：<5%
部署建议：
- MLaaS场景默认启用
- 普通工作负载动态切换

4.3 其他缓解措施

时序噪声注入：
- 在AMX指令前后添加随机延迟(50-200周期)
- 需权衡模型推理延迟增加(约15-20%)
硬件设计改进：
- 下一代AMX应实现恒定时序乘法单元
- 可采用进位保留加法器(CRA)结构消除数据依赖

5. 对AI安全的启示

THOR漏洞暴露了硬件加速器优化与安全边界间的深层矛盾。我们在实际测试中发现几个关键现象：

稀疏性泄露的衍生风险：
- 通过权重稀疏模式可反推训练数据特征
- 攻击者能识别敏感数据集中存在的特殊模式
- 示例：在医疗影像模型中，稀疏模式泄露可反映罕见病症特征
跨模型攻击可能性：
- 同一硬件上运行的不同模型可能产生可区分的时序特征
- 通过迁移学习可实现模型指纹识别
防御设计建议：
- 硬件厂商需建立安全评估框架评估每项优化特性
- ML开发者应假设硬件时序信息始终可能泄露
- 关键模型建议结合同态加密与AMX加速

实测中发现一个有趣现象：当使用AMX执行INT8量化的ResNet-18推理时，仅通过时序分析就能以82%准确率识别输入图像是否包含人脸。这显示时序侧信道可能泄露远超预期的信息。

查看全文

http://www.jsqmd.com/news/813431/