当前位置：首页 > news >正文

统一ECC加速器设计：自动化DSE与参数化架构优化实践

news 2026/7/19 18:13:34

1. 项目概述：为什么我们需要一个统一的椭圆曲线密码学加速器？

如果你在硬件安全或者高性能密码学领域摸爬滚打过几年，大概率会和我有同样的感受：为每一个特定的椭圆曲线密码学（ECC）函数单独设计一个硬件加速器，就像给家里的每一件工具都单独配一个工具箱——东西是能干活，但管理成本高得吓人，而且资源利用率往往惨不忍睹。属性基加密（ABE）这类现代密码学方案更是把这个问题放大了，它要求一个硬件能同时高效地处理椭圆曲线标量乘法（ECSM）、哈希到曲线（Hashing to the Curve）和双线性配对（Pairing）等多种核心运算。

过去，业内的普遍做法是“专器专用”。比如，针对Curve25519的标量乘法设计一个高度优化的流水线，再为BLS12-381曲线的配对运算单独打造一个架构。这么做的理由很充分：不同函数的计算模式、数据依赖性和资源瓶颈天差地别。一个为配对优化的深度流水线乘法器，用在标量乘法上可能因为指令级并行度不够，反而导致大量流水线气泡，性能还不如一个浅流水线的设计。但问题来了，当我们想要构建一个支持完整ABE方案的片上系统（SoC）或加速卡时，难道要把三四个独立的加速器核心都塞进去吗？这显然在面积、功耗和系统复杂度上都是不可接受的。

所以，一个自然的想法是：能不能设计一个统一的硬件架构，通过灵活的配置，让它既能高效跑标量乘法，又能快速完成配对计算？这个想法听起来美好，但实操起来满是坑。核心矛盾在于，你很难凭直觉判断，对于一个需要支持所有功能的“多面手”来说，什么样的硬件配置（比如模乘单元MM的流水线级数、模加/减单元MAS的数量）才是全局最优的。增加MM的流水线级数可以提升主频，但可能会增加运算周期；增加MAS实例可以缓解加法瓶颈，但会挤占布线资源，可能反过来制约频率。这个设计空间太大了，靠人工经验和有限的几次流片试错，根本摸不到边。

这就是我们这项工作的出发点：构建一个参数化的统一加速器架构，并配套一个自动化的设计空间探索（DSE）方法论。我们不靠猜，而是通过系统性的探索，让数据告诉我们，在给定的目标函数集（比如完整的ABE运算）和硬件平台（如特定型号的FPGA）上，什么样的配置能在延迟、面积和吞吐率之间取得最佳平衡。下面，我就结合自己踩过的坑和最终摸索出来的方案，带你深入这个硬核的硬件设计优化过程。

2. 核心架构设计：从模块化单元到统一运算核心

2.1 基石：高性能模乘单元的设计与权衡

一切高性能椭圆曲线加速器的核心，都是一个高效的模乘单元。我们放弃了针对特定质数优化的专用设计，采用了操纵查找表模乘方法。这个方法的核心优势在于，它能针对任意给定的质数生成接近最优的电路，而不依赖于质数是否具有特殊的格式（如梅森素数）来简化模约减。

简单来说，MLuTMM把一次大位宽（比如384位）的模乘，分解为多个小位宽的并行乘法（利用FPGA的DSP切片），然后通过一个巨大的压缩器树（我们用广义并行计数器实现）来汇总部分积。接下来是关键：它通过一次“操纵的”查找表模约减，将中间结果映射到一个更小的值域，最后再经过一次标准的查找表模约减得到最终结果。整个数据通路可以被灵活地插入流水线寄存器。

这里第一个设计抉择就出现了：流水线级数。更深的流水线意味着更短的关键路径，可以实现更高的工作频率。但代价是，一次乘法运算需要更多的时钟周期才能流出结果。对于计算依赖链很长的运算（如标量乘法），更深的流水线可能导致后续计算空等，反而增加总周期数。因此，不存在一个“放之四海而皆准”的流水线深度，它必须与目标函数的计算图紧密结合来评估。

2.2 统一算术逻辑单元：灵活性与复杂性的博弈

有了高性能的模乘引擎，我们需要一个能调度各种计算的数据通路。我们借鉴并扩展了之前用于配对计算的多模运算单元架构。其核心思想是构建一个包含1个模乘单元和N个模加/减单元的运算阵列，我称之为算术逻辑单元。

ALU内部的所有数据通路宽度都与质数位宽一致。每个运算单元（MM或MAS）都有自己专属的本地存储器，用于暂存中间变量。两个操作数通过一个大型多路选择器网络来提供，选择源可以是：其他运算单元的直出结果、延迟一拍的结果、本地存储器读数、或是主存储器读数。这个设计带来了极大的灵活性，任何运算的输出都可以在下一个周期被任何其他运算使用，为调度器优化计算顺序提供了广阔空间。

但灵活性是有代价的。这个大型互连网络是布线拥塞的主要来源。当MAS实例数量增加时，多路选择器的输入数量呈线性增长（每个操作数有3*(MM_n+MAS_n)+1个输入源）。在FPGA上，当输入超过某个阈值（例如16）时，综合工具可能不得不使用多级LUT来实现选择器，这会显著增加面积和延迟。在我们的探索中，将MAS实例从4个增加到5个时，就观察到了面积的跃升，正是触及了这个阈值。

2.3 侧信道防护：不是事后补丁，而是设计伊始的考量

密码学硬件不能只追求快，还必须安全。我们的设计从算法选择到微架构层面都考虑了侧信道攻击防护：

恒定时间执行：所有算法，包括蒙哥马利阶梯用于标量乘、特定的模逆算法，都确保执行时间与秘密数据（如私钥）无关，防御计时攻击。
抗简单功耗分析：蒙哥马利阶梯算法本身在每个阶梯步执行相同的操作序列，无论密钥位是0还是1，从而消除了操作序列差异带来的功耗特征。
抗差分功耗分析：我们采用了两种随机化技术。一是标量随机化，在计算k*P时，将私钥k加上一个随机倍数x*n（n为曲线阶数），因为n*P = O（无穷远点），所以结果不变，但每次计算的标量值都不同。二是随机化射影坐标，将仿射坐标点(X, Y)转换为射影坐标(λX, λY, λ)，其中λ是一个随机域元素，这使得每次运算开始时处理的数据都是随机的。

注意：这些防护措施会引入额外的计算开销（如一次大数乘法用于标量随机化）。在纯粹追求极限性能的学术对比中，有些工作可能会省略这些防护。但在实际产品设计中，这些是必须项。我们的性能对比数据是包含了这些防护开销的，这更符合工业实践。

3. 自动化调度生成：将工程师从繁琐的编排中解放出来

设计好了硬件，接下来最头疼的问题来了：怎么给它编程？或者说，如何为每一个目标函数（如G1上的标量乘法）生成一套最优的、周期级精度的控制指令序列，来驱动ALU里的多个流水线单元协同工作？

传统方法是手工编排调度。你需要像编排交响乐一样，精确安排每个乘法、加法在哪个周期开始，操作数从哪里来，结果写回到哪里，还要避免资源冲突（比如两个周期同时争用同一个MAS单元）。对于一个像BLS12-381配对这样复杂的函数，涉及上千次模运算，手工调度可能需要数天时间，且几乎无法保证最优。

我们的解决方案是一个用Python编写的自动调度生成框架。它的��心是将调度问题形式化为一个混合整数规划问题，并使用成熟的求解器来寻找最优或近似最优解。

框架工作流程如下：

任务枚举：将目标函数（如配对计算的Miller循环）分解为一个个原子任务，对应到硬件资源（MM、MAS）。为所有中间变量分配唯一ID。
建立模型与约束：
- 每个任务被建模为一个具有持续时间的活动（持续时间等于对应运算单元的流水线延迟）。
- 添加数据依赖约束：任务B必须在其所有输入操作数对应的任务完成后才能开始。
- 插入存储器访问任务：为每个计算任务的输入输出添加对应的读/写存储器任务，并固定其延迟（如读延迟1周期）。
求解与指令生成：
- 调用后端求解器（我们用的是CPLEX）寻找最小化总周期的调度方案。
- 对于超大规模问题，采用分段求解策略：将整个计算图切成若干段，按顺序求解，并将前一段已确定的任务开始时间作为固定约束传递给下一段，大幅降低求解复杂度。
- 将优化后的调度表转换为加速器可执行的二进制指令格式，包括操作码、操作数地址、多路选择器控制信号等。

这个框架的效果是革命性的。以我们最终选定的一个配置为例，为所有五个核心函数生成调度表，手动可能需要超过28个CPU小时，而我们的框架在1个CPU小时内就能完成。这让我们能够快速、低成本地对海量设计配置进行性能评估，这是进行有效设计空间探索的前提。

4. 设计空间探索实战：寻找ABE加速的“甜蜜点”

有了参数化架构和自动调度器，我们就可以系统地探索设计空间了。探索的目标很简单：对于给定的目标函数（或函数集合），找到那个能实现最小运算延迟的硬件配置。延迟 = 关键路径延时 × 所需时钟周期数。

4.1 探索参数与执行策略

我们主要探索两个对性能和面积影响最大的参数：

MM流水线级数：这是性能的关键杠杆。级数少，关键路径长，频率低，但完成一次乘法所需的周期数也少。级数多，频率高，但可能因并行度不足导致周期数增加。
MAS实例数量：对于在扩展域（如G2, GT）上进行的运算，模加/减操作数量巨大，可能成为瓶颈。增加MAS实例可以提升并行处理加法的能力。

为了控制探索的复杂度，我们固定了其他一些参数。例如，我们让MAS单元的流水线级数和模逆单元的级数跟随MM级数调整，确保关键路径始终落在MM单元内。如果MM深度增加了，但MAS的流水线没跟上，那么关键路径可能会转移到MAS上，导致增加MM深度对提升频率无效，反而白增加了周期数。

探索执行分为两步走：

硬件特性评估：使用Vivado对每一组参数配置进行综合与实现。为了应对ALU内部复杂的互连带来的布线挑战，我们使用了PBLOCK约束来隔离核心模块的布局，并尝试了多种实现策略，最终选取时序结果最好的那个。
软件性能评估：将同一组参数输入自动调度框架，生成该配置下各个目标函数的最优调度，并统计出所需的时钟周期数。

4.2 案例一：聚焦椭圆曲线标量乘法

我们首先在Virtex-7和Virtex UltraScale+两款FPGA上，对四种常用曲线进行了ECSM专属的探索。由于ECSM中MAS操作不多，我们固定MAS实例数为1，只探索MM级数。

结果非常有启发性：

对于Secp256k1、NIST-P256、NIST-P384这些短Weierstrass曲线，5级流水线的MM带来了最低的延迟。
而对于使用不同阶梯算法的Curve25519，4级流水线才是最优的。

原因分析：当MM流水线较浅时（比如从3级增加到5级），关键路径的缩短收益非常明显，而由于ECSM计算存在一定的指令级并行度，增加的流水线气泡尚不严重，总周期数增长不大，因此总延迟下降。但当流水线继续加深（到7、8级），关键路径的缩短边际效益递减，而并行度已无法有效填充更深的流水线，导致周期数显著增加，总延迟反而上升。Curve25519的阶梯算法所需计算量约为Weierstrass曲线的一半，其数据依赖链相对更短，因此更浅的流水线就能达到平衡点。

这个案例表明，即使同是标量乘法，针对不同曲线的最优硬件配置也可能不同。一个“通用”的固定设计很可能对某些曲线是次优的。

4.3 案例二：全面应对属性基加密

第二个案例，我们面向BLS12-381曲线上完整的ABE所需函数集进行探索。这次，我们同时探索MM级数和MAS实例数。

探索结果揭示了不同函数的异质性：

G1 MUL 和 G1 HASH：这两个主要在基域G1上运算的函数，增加MAS实例几乎无法减少周期数。它们的瓶颈在MM单元。7级MM是延迟最优的选择。
G2 MUL, GT EXP 和 Pairing：这些在二次或十二次扩展域上进行的函数，涉及大量域加法。当只有1个MAS实例时，MAS利用率接近100%，成为明显瓶颈，MM单元则在空等。将MAS实例增加到2个，能带来周期数的急剧下降。继续增加到4个，仍有持续收益。对于这些函数，13级MM配合多个MAS实例能取得最低延迟，因为深流水线的高频率优势，被高度并行的MAS操作有效利用了起来。

那么，对于完整的ABE操作（包含密钥生成、加密、解密），哪个配置最好呢？我们统计了三个典型ABE方案中各函数的调用次数，计算了总延迟。

结论出乎一些人的直觉：尽管配对、G2运算等在深流水线下表现更好，但对于完整的ABE操作，7级MM的配置仍然是最优的。这是因为在ABE的整体计算负载中，在G1上执行的运算（主要是G1 MUL）占据了主导地位。优化G1 MUL的延迟，对整体性能的提升贡献最大。

此外，面积-时间积的分析表明，将MAS实例从4个增加到5个，带来的性能提升微乎其微，但面积代价却因多路选择器复杂度跃升而暴涨。因此，4个MAS实例是一个性价比很高的选择。

5. 性能对比与实战启示

5.1 对标最新研究成果

我们将探索得到的最优配置实现出来，与学术界最新的设计进行了对比。

在ECSM方面，我们的设计在相同FPGA平台上，相比那些不支持多曲线的通用设计，取得了2.5倍到18.3倍的加速。这证明了MLuTMM方法针对特定质数优化的威力。即使与那些为固定曲线（如NIST-P256）高度优化的设计相比，我们的设计在延迟和吞吐率面积比上仍然具有优势。例如，对比一个为Curve25519优化的顶尖设计，我们的延迟仍低15%。

在ABE函数方面，我们的统一加速器是首个能支持全部五个核心功能的硬件设计。与专注于单个功能的顶尖设计相比：

G1 MUL：比采用专用反馈路径的设计延迟降低13%，TPA提升19%。
G1 HASH：相比已有的ASIC设计，延迟降低至少30%。
配对运算：在与一个采用超大面积Fp2乘法器的设计对比中，我们的延迟是其2倍，但得益于面积小得多，TPA仍略胜一筹；与另一个采用超长流水线交织多个配对计算的设计相比，我们的延迟领先72%，但TPA低25%。

这些对比说��，我们的统一架构在追求“全能”的同时，在单项性能上并未做出太大妥协，甚至在多数情况下仍处于领先地位。

5.2 从实验室到产品：还有哪些可以优化？

虽然当前设计已表现优异，但结合探索中的发现，我认为在实际部署中还有几个值得深入的方向：

应对大规模数据搬运：ABE在实际应用中可能涉及大量属性，导致输入输出数据量很大。虽然我们集成了PCIe高速接口，但通信策略仍需优化。可以将多个函数调用及其数据打包成批处理指令一次性下发，并将结果聚合后返回，以减少通信开销。在带宽受限的场景，可以采用计算-通信重叠的策略。
利用更深流水线进行计算交织：目前我们的设计一次只执行一个操作。但ABE中的许多运算是独立的。如果采用更深的流水线（如13级MM），虽然单个操作的延迟会增加，但可以像流水线一样，同时交织执行多个独立操作，从而显著提升整体吞吐率。这对于服务器端需要处理大量并发ABE请求的场景尤其有意义。
区分恒定时间与非恒定时间操作：ABE的某些步骤（如部分公开参数生成）可能不需要恒定时间执行。如果安全模型允许，在这些环节切换至非恒定时间算法（如使用滑动窗口法等更快的标量乘法），可以带来可观的性能提升。
多核实例化：我们的单核设计在大型FPGA上资源占用率很低。而ABE的许多计算天然可并行。在同一芯片上实例化多个加速器核心，让它们并行处理不同的任务（如同时为多个用户生成密钥），是榨干FPGA算力、实现性能线性提升的最直接路径。

6. 总结与心得

回顾整个项目，从构思参数化架构，到开发自动调度框架，再到进行大规模的设计空间探索，最后在硅上验证性能，这个过程让我对硬件加速器设计有了更深的理解。

最大的体会是：对于复杂的密码学硬件，架构探索不能靠经验主义，必须数据驱动。我们探索中发现的几个反直觉结论——比如对于完整ABE，7级MM反而比13级MM好；MAS实例从4个增加到5个性价比骤降——都是通过系统性的探索才浮出水面的。手动调整几个参数跑仿真的传统方法，根本无法覆盖如此庞大的设计空间。

另一个关键点是工具链的重要性。自动调度生成框架不仅是节省时间的工具，更是 enabling technology。它使得快速评估成百上千种配置成为可能，从而让设计空间探索从理论走向实践。没有这个工具，我们提出的这套方法论将毫无可行性。

最后，统一架构的设计哲学在于权衡与平衡。它要求设计者跳出对单一函数极致的追求，转而思考如何让一套硬件资源能灵活、高效地服务于一个复杂的计算工作流。这需要更全局的视野，以及对不同算法计算特征的深刻理解。这项工作为未来设计支持更复杂密码学协议的高性能加速器提供了一个可复用的框架和方法论，其价值可能远超一个具体的ABE加速器实现本身。

查看全文

http://www.jsqmd.com/news/898896/