当前位置：首页 > news >正文

后量子密码中的拒绝采样技术及硬件优化

news 2026/4/23 2:26:06

1. 后量子密码与拒绝采样技术解析

在量子计算快速发展的今天，传统公钥密码体系面临严峻挑战。Shor算法能在多项式时间内破解RSA和ECC等基于大整数分解或离散对数问题的密码系统，这使得后量子密码学（Post-Quantum Cryptography, PQC）成为研究热点。其中，基于多元多项式方程组的公钥密码（Multivariate Public Key Cryptography, MPKC）因其抵抗量子攻击的特性备受关注。

1.1 多元公钥密码的核心挑战

MPKC的安全性基于求解有限域上多元二次方程组的困难性，这是一个被证明的NP完全问题。以QR-UOV（Quotient Ring-based Unbalanced Oil and Vinegar）方案为例，其签名过程包含三个关键步骤：

伪随机数生成（PRNG）
拒绝采样（Rejection Sampling）
多元方程组求解

其中拒绝采样作为核心随机化技术，负责筛选符合特定代数约束的伪随机数。这个过程消耗了签名流程中约45%的计算资源，成为性能瓶颈。传统软件实现面临两个主要问题：

时序不均匀性：采样过程的条件分支导致执行时间波动，可能泄露侧信道信息
吞吐量不足：嵌入式设备处理大规模采样时延迟显著，难以满足实时性要求

1.2 拒绝采样的数学原理

拒绝采样的本质是蒙特卡洛方法在密码学的应用。给定模数q=127（Mersenne素数）和伪随机字节流r∈[0,255]，算法需要输出向量v∈[0,q-1]^n。其核心操作可表述为：

def rejection_sampling(byte_stream, q): valid_elements = [] for byte in byte_stream: v = byte & (q - 1) # 利用q是Mersenne素数的特性 if v < q: valid_elements.append(v) return valid_elements

这种实现虽然直观，但存在两个关键优化点：

并行处理：现代硬件可同时处理多个字节的比较运算
内存访问：合理的缓存策略能减少数据搬运开销

技术细节：当q=127时，位操作byte & 0x7F等效于取模运算，但避免了昂贵的除法操作。这是选择Mersenne素数作为模数的重要优势。

2. RejSCore架构设计

2.1 整体架构

RejSCore采用协处理器设计模式，通过64位数据通路连接各功能单元。其架构包含五个关键组件：

模块	功能描述	关键技术
指令解码	解析26位控制字	精简指令集设计
双端口内存	数据缓存	8字节打包策略
控制单元	状态机调度	流水线冲突处理
AES-CTR	伪随机数生成	全展开AES流水线
RejSamp	拒绝采样逻辑	并行比较电路

（图示：数据通路与关键模块的交互关系）

2.2 AES-CTR伪随机数生成器

采用全展开的AES-128加密引擎，关键设计参数：

流水线级数：10轮加密分为2阶段流水
吞吐量：每21周期完成16字节输出
密钥扩展：与加密并行执行

具体实现时利用Artix-7 FPGA的Slice结构特点：

// AES轮函数示例 always @(posedge clk) begin state <= AddRoundKey( MixColumns( ShiftRows( SubBytes(state)))); end

实测表明，该设计在222MHz频率下达到1.78Gbps的伪随机数生成速率，满足QR-UOV Level-I的参数要求（τ=2916字节）。

2.3 轻量级拒绝采样单元

创新性地采用迭代缓冲策略，主要优化点：

并行比较器阵列：16个并发的8位比较器
移位寄存器组：128位宽度的数据重组缓冲
状态机控制：三级流水线调度

采样过程的时序表现为：

周期1-2：加载2×64位数据 周期3：并行比较16字节 周期4：有效字节选择 周期5：64位打包写回

这种设计虽然增加了约12%的延迟，但减少了38%的LUT资源占用。在安全级别I（q=127）下，每个采样周期平均产生5.2个有效元素。

3. 硬件实现与优化

3.1 FPGA实现细节

在Xilinx Artix-7 XC7A100T上的实现结果：

模块	LUTs	FFs	频率(MHz)	功耗(mW)
AES-CTR	4934	4911	222	890
RejSamp	175	219	222	62
控制单元	432	587	222	248

内存访问采用突发传输模式，关键配置：

#define MEM_BURST_LEN 8 // 64位×8次连续访问 #define PRNG_BUF_SIZE 1024 #pragma HLS array_partition block factor=4

3.2 ASIC实现对比

采用TSMC 65nm工艺的综合结果：

指标	FPGA	ASIC	提升
面积(mm²)	-	0.465	-
频率(MHz)	222	565	2.54×
功耗(mW)	1212	0.129	9395×
延迟(μs)	38.4	15.0	2.56×

面积优化主要来自：

定制SRAM编译器替代FPGA Block RAM
组合逻辑的工艺映射优化
时钟树综合降低时序余量

3.3 性能指标分析

使用面积-延时积（ADP）和功耗-延时积（PDP）评估：

平台	ADP	PDP	适用场景
FPGA	2.3×10⁻⁵	5.4×10⁻⁹	快速原型开发
ASIC	8.2×10⁻⁴	2.3×10⁻¹⁰	量产部署

技术缩放分析表明，若将FPGA实现迁移到同等65nm工艺，其ADP仍比ASIC高6倍，凸显了定制电路的优势。

4. 工程实践与优化建议

4.1 内存访问优化

实测发现内存带宽是性能瓶颈，推荐策略：

数据打包：将8字节压缩为64位字，减少33%的访问次数
预取缓冲：16-entry的预取队列可隐藏60%的访问延迟
Bank交错：双端口内存采用奇偶地址交错存储

// 双端口内存接口示例 module dp_ram #(parameter AW=10) ( input clk, input [AW-1:0] addr_a, addr_b, output [63:0] data_a, data_b ); reg [63:0] mem[0:(1<<AW)-1]; always @(posedge clk) begin data_a <= mem[addr_a]; data_b <= mem[addr_b]; end endmodule

4.2 侧信道防护

虽然当前设计未集成专门防护措施，但通过以下方式增强安全性：

恒定时序设计：采样循环固定为8525周期
随机化调度：插入伪随机空操作消除功耗特征
总线加扰：AES输出经XOR掩码后再写入内存

4.3 参数可配置性

通过修改以下宏定义即可适配不同安全级别：

// QR-UOV参数模板 #define SEC_LEVEL 1 // I/III/V #if SEC_LEVEL == 1 #define Q 127 #define V 156 #define M 54 #elif SEC_LEVEL == 3 #define Q 511 #define V 76 // ... #endif