当前位置：首页 > news >正文

TEE中LLM推理的预计算噪声漏洞与防御

news 2026/6/23 5:19:56

1. TEE-Shielded LLM推理中的预计算噪声漏洞深度解析

在当今AI安全领域，可信执行环境（TEE）已成为保护机器学习模型机密性和完整性的关键技术。然而，当这项技术遇上大型语言模型（LLM）推理时，一个看似无害的性能优化策略——预计算静态噪声基向量，却意外打开了潘多拉魔盒。本文将深入剖析这一设计漏洞的数学本质、攻击原理及实际影响。

1.1 背景与核心问题

TEE通过硬件级隔离为敏感计算提供安全飞地，但其有限的计算资源与LLM庞大的计算需求形成尖锐矛盾。以LLaMA-3-8B模型为例，完全在TEE内执行推理会导致延迟飙升52倍（从3.61秒增至187秒），吞吐量暴跌至0.5 token/秒。这种性能惩罚迫使系统设计者采用折衷方案：将计算密集型部分（如矩阵乘法）卸载到非安全GPU执行，仅保留关键操作在TEE内。

为保护卸载计算的机密性，现有方案（如TLG）采用"噪声注入"技术：在TEE内将模型参数$W$与动态噪声$m$结合，生成混淆参数$W'=W+m$发送至GPU。理想情况下，$m$应为每次查询独立生成的真随机噪声。但实际为提升性能，系统采用预计算策略——提前生成$K$个基向量${v_1,...,v_K}$，运行时仅需线性组合即可快速合成噪声： $$m = \sum_{i=1}^K c_i v_i \quad (c_i \in \mathbb{F}_P)$$

这种静态基设计虽将吞吐量提升至18.6 token/秒，却引入了致命的代数结构漏洞。攻击者发现，通过特定查询策略可逐步揭示这个$K$维秘密子空间，最终完全瓦解TEE的安全保障。

1.2 威胁模型与攻击场景

我们假设攻击者具备以下能力：

可观察TEE与GPU间的通信（如通过PCIe嗅探）
发起有限次数的推理查询
了解系统协议框架（包括使用预计算噪声）但不掌握：
具体的基向量${v_i}$
随机组合系数${c_i}$
秘密置换参数

实际攻击分为两类场景：

模型窃取：恢复被噪声保护的原始权重$W$
完整性绕过：识别Soter等系统的验证指纹，实现选择性篡改

2. 漏洞的数学本质

2.1 子空间秩稳定特性

预计算噪声的核心漏洞源于线性代数的基本定理：$K$个基向量的所有线性组合张成的空间维度不超过$K$。当攻击者发送零向量查询时（即输入$x=0$），观察到的输出形式为： $$y = (W+m)x + b = b + \sum_{i=1}^K c_i v_i$$

通过收集$N$次查询结果${y^{(1)},...,y^{(N)}}$，其构成矩阵的秩将呈现典型收敛特性：

当$N<K$时，秩随$N$线性增长
当$N≥K$时，秩稳定在$K$

图7实验数据显示，对于$K=10$的系统，输出矩阵秩在10次查询后即停止增长。这种"维度饱和"现象直接暴露了秘密参数$K$。

2.2 子空间恢复攻击

已知$K$后，攻击进入第二阶段——恢复基向量。设攻击者收集两组独立查询结果$Y_A$、$Y_B$，每组包含$K+δ$个样本（$δ$为防线性相关的小常数）。根据： $$span(Y_A) \cap span(Y_B) = V_C$$ 通过求解齐次线性方程组$Y_A^T x = Y_B^T x = 0$，可精确提取基矩阵$Q$。对于$P=2^{31}-1$的素数域，该攻击成功率可达100%（图8）。

关键参数选择：δ的取值需平衡可靠性与效率。根据随机矩阵秩缺陷概率公式： $$P(rank\ deficient) = 1 - \prod_{i=1}^K (1-\frac{1}{P^i})$$ 当$P=2^{31}-1$时，取δ=2即可使失败概率低于$10^{-18}$。

3. 实际攻击案例分析

3.1 模型参数窃取（TLG系统）

攻击步骤：

维度探测：发送零向量查询，观察秩稳定点确定$K$
子空间学习：收集$2(K+δ)$个输出构建$Y_A$、$Y_B$
基求解：计算$null(Y_A^T) \cap null(Y_B^T)$得到$Q$
噪声剥离：对任意输出$y=(W+m)x$，用$Q$分解出$m$后还原$Wx$

在LLaMA-3-8B上的实测显示（表4），攻击可在6.2分钟内完整恢复单层参数，重构模型与原始模型在GSM8K基准上准确率完全一致（82.34%）。

3.2 完整性绕过（Soter系统）

Soter通过隐藏验证指纹（已知答案）检测计算篡改。攻击者利用指纹均来自静态子空间的特性：

指纹子空间学习：同前法恢复$V_C$
实时分类：对每个激活向量$a$，检查$a \in V_C$
- 若$a \in V_C$ → 识别为指纹 → 返回正确结果
- 若$a \notin V_C$ → 识别为用户数据 → 注入恶意输出

图5展示该攻击可100%绕过验证（图8b），使攻击者能任意篡改推理结果而不触发警报。

4. 防御措施有效性验证

4.1 随机子集采样防御

部分系统尝试仅随机选用$T$个基向量（$T<K$）生成噪声。实验证明（图9-10）：

仍可观测到秩增长拐点，暴露$K$
攻击成功率保持100%，仅需更多样本（约$K^2/T$次查询）

4.2 增大维度$K$的防御

将$K$从10增至256时（图11-12）：

攻击仍100%成功
时间成本仅线性增长（$O(K^3)$）
LLaMA-3-8B案例中，即使$K=14336$也仅需约6分钟

5. 协议设计启示与建议

5.1 根本矛盾分析

该漏洞揭示了安全工程中的深层困境：

安全性要求：每次查询需独立随机噪声
性能要求：必须预计算复用基向量现有方案选择牺牲前者，导致系统性风险。

5.2 设计原则建议

动态基更新：定期重新生成基向量，限制攻击窗口期
非线性混淆：在噪声合成中引入非线性操作（如模约简）
混合保护：结合TEE与同态加密（如CKKS方案）
硬件协同：利用新一代保密计算GPU（如NVIDIA HCC）

6. 实操复现指南

6.1 实验环境搭建

硬件配置：

CPU：Intel Xeon 4309Y（SGXv2）
GPU：NVIDIA A100-80GB
内存：4GB EPC（含512MB安全堆）

软件栈：

# SGX环境 sudo apt install linux-sgx-driver linux-sgx-sdk git clone https://github.com/intel/linux-sgx && cd linux-sgx make sdk && make sdk_install_pkg # 计算库 conda install -c pytorch magma-cuda115 pip install torch==2.5.1+cu115 --extra-index-url https://download.pytorch.org/whl/cu115

6.2 攻击代码核心逻辑

import numpy as np from scipy.linalg import null_space def subspace_attack(queries, delta=2): # 阶段1：检测K ranks = [] for i in range(1, len(queries)): Y = np.vstack(queries[:i]) ranks.append(np.linalg.matrix_rank(Y)) K = np.argmax(np.diff(ranks) < 1e-6) + 1 # 阶段2：恢复基 Y1 = np.vstack(queries[:K+delta]) Y2 = np.vstack(queries[K+delta:2*(K+delta)]) Q = null_space(Y1.T) ∩ null_space(Y2.T) return K, Q