当前位置：首页 > news >正文

Herqles架构：量子比特读取的硬件高效判别器设计与FPGA实现

news 2026/7/15 0:31:52

1. 项目概述：量子比特读取的精度与速度困局

在量子计算的世界里，有一个操作看似基础，却直接决定了整个系统的上限：量子比特的读取。你可以把它想象成计算机的“内存读取”指令，但这里读取的不是0或1的确定性电压，而是一个处于叠加或纠缠态的量子比特。我的工作长期与超导量子比特打交道，一个深刻的体会是，无论你的量子门保真度做到多高，算法设计得多精妙，如果最后一步“读”错了，一切归零。当前主流的超导量子处理器上，读取误差普遍在1%到10%之间，而一次读取操作耗时动辄数百纳秒，这成了制约量子计算实用化的关键瓶颈之一。

误差从哪来？根源在于量子世界的脆弱性。当你用一个微波脉冲去“询问”一个量子比特的状态时，这个测量过程本身就会引入干扰。串扰（Crosstalk）就像在嘈杂的派对上听不清一个人的话，因为相邻量子比特的测量信号混在了一起。弛豫（Relaxation）则是量子比特自身的“能量泄漏”，一个本该是“1”的激发态，可能在测量完成前就自发地掉回了“0”态。此外，测量脉冲也可能意外地将“0”态激发成“1”态，产生激发误差。这些非理想因素交织在一起，使得从复杂的模拟信号中准确分辨出“0”和“1”，成为一项极具挑战性的信号处理任务。

传统的解决方案面临一个两难选择。一方面，是使用简单的硬件判别器，比如在FPGA上实现的匹配滤波器。它速度快、延迟低，能实时处理数据，但精度有限，尤其难以应对多比特读取时的串扰问题。另一方面，是采用强大的软件判别器，比如在经典计算机上运行的大型深度神经网络。它能从原始的、高维的读取信号中挖掘出深层特征，显著提升精度，但代价是巨大的延迟——需要将海量的ADC原始数据从控制硬件传输到主机进行运算，这严重拖慢了整个量子电路的执行速度，对于需要实时反馈或高吞吐量的应用来说是致命的。

因此，我们面临的核心问题就是：能否设计一种判别器架构，既能达到甚至超越软件神经网络的精度，又能像简单硬件滤波器一样快速、低延迟，并且易于在控制硬件（如FPGA）上规模化实现？这正是我们提出herqles架构的初衷：在硬件效率与读取精度之间，找到那个最优的平衡点。

2. 核心思路：分层处理与特征工程

面对上述困局，herqles的设计哲学非常清晰：不做单一的、臃肿的“巨无霸”模型，而是构建一个分工明确、各司其职的“流水线”。其核心思路可以拆解为两个关键层次：高效的维度压缩与精准的特征增强。

2.1 第一层：用匹配滤波器进行智能压缩

大型神经网络判别器的根本问题在于输入维度太高。对于一个持续1微秒的读取信号，以2GS/s采样，I、Q两路就是4000个数据点。直接用这些数据训练一个全连接网络，参数量巨大，根本无法部署到资源有限的FPGA上。

我们的第一个洞察是：并非所有数据点都同等重要。匹配滤波器（Matched Filter, MF）在这里扮演了“数据提炼师”的角色。它的原理是基于最大信噪比准则，为每个量子比特学习一个最优的滤波模板。这个模板本质上是一个权重向量，其形状与在无噪声、无弛豫的理想情况下，“0”态和“1”态读取信号的差值波形相匹配。

注意：匹配滤波器的训练需要标注数据。我们通过标准的量子态制备和测量流程，收集大量已知为“0”态和“1”态的读取信号轨迹。计算这两类信号均值向量的差，再除以它们的协方差矩阵（或简化处理为方差），就得到了最优的MF权重。这个过程计算量小，且为每个量子比特独立进行，线性可扩展。

在推理（即实时读取）时，操作变得极其高效：将实时采集到的读取信号轨迹与预先生成的MF权重模板进行点积（乘累加运算）。这个操作在硬件上只需要一系列乘法器和累加器即可实现，最终将一个长达数千维的时间序列，压缩成一个单一的标量值。这个标量值已经最大程度地汇聚了区分“0”和“1”的信息。

2.2 第二层：引入弛豫探测，弥补信息损失

然而，简单的维度压缩是有代价的。MF在最大化信噪比时，隐含的假设是信号波形是稳定的。但弛豫过程破坏了这一假设——一个量子比特在测量中途从“1”翻转到“0”，其信号轨迹是时变的。标准的MF会将其视为一种强烈的噪声，导致分类错误，这是其精度上限不及大型神经网络的主要原因。

我们的第二个关键创新，就是专门针对弛豫过程进行特征工程。我们意识到，发生弛豫的轨迹，其形态既不同于稳定的“1”态，也不同于稳定的“0”态。它更像是一个从“1”态区域向“0”态区域过渡的路径。

因此，我们为每个量子比特引入了第二个匹配滤波器——弛豫匹配滤波器。它的训练目标不再是区分“0”和“1”，而是区分“稳定的0态”和“从1弛豫到0的轨迹”。训练这个RMF需要一个挑战：如何获得大量标注好的“弛豫轨迹”数据？在实验中主动诱发并精确标记弛豫发生的时刻是极其困难的。

我们提出了一种巧妙的半监督标注算法。其核心思想基于一个观察：在IQ平面上，大量“1”态制备的测量结果中，总有一部分点落在了“0”态簇的中心区域。这些点很可能对应着在测量开始前或测量过程中就已弛豫的量子比特。我们通过计算“0”态和“1”态轨迹平均值的中心点，并以两点距离的一半为半径画圆，将落在“0”态中心圆内的“1”态标签数据，重新标记为“弛豫候选轨迹”。用这些数据与纯净的“0”态数据一起，就能训练出专用于探测弛豫特征的RMF。

2.3 第三层：轻量级神经网络的决策融合

经过前两层处理，我们为每个量子比特得到了两个高度凝练的特征值：一个来自标准MF（主要编码稳态区分信息），一个来自RMF（主要编码弛豫探测信息）。对于一组N个频率复用的量子比特，我们就得到了2N个特征。

现在，输入到神经网络的数据维度从几千骤降到了2N（例如5个比特就是10维）。我们可以使用一个非常小的前馈神经网络（例如10->20->40->20->32的结构）来接收这些特征。这个网络的作用不再是艰难地从原始噪声中提取特征，而是成为一个智能的“决策融合器”。它学习如何权衡来自MF和RMF的证据，并同时处理多个比特之间的串扰关联。因为输入维度极低，这个网络小到可以轻松地集成到FPGA的逻辑资源中，实现真正的硬件原位推理，彻底消除了数据传输的延迟。

3. 架构实现与硬件部署细节

理论设计需要扎实的工程实现来落地。下面我详细拆解herqles从数据处理到FPGA部署的全流程，其中包含了许多在论文中一笔带过、但对实际复现至关重要的细节。

3.1 数据处理与训练管线

完整的herqles训练是一个分阶段的过程，必须严格按顺序进行：

数据采集与预处理：
- 使用量子处理器，对每个量子比特分别制备到|0⟩和|1⟩态，并进行多次测量，收集数万条原始的I、Q时间序列数据。每条数据都带有制备态的标签。
- 对数据进行数字解调。对于频率复用读取，需要将ADC采到的复合信号，分别与每个量子比特对应的谐振腔频率进行混频和下变频，分离出各个比特的独立轨迹。
- 进行时间对齐和归一化。由于仪器响应和路径延迟，每次测量的起点可能轻微漂移，需要用互相关等方法进行对齐。归一化可以消除放大器增益波动带来的整体幅度变化。
标准匹配滤波器训练：
- 对于每个量子比特，将其所有“0”态轨迹和“1”态轨迹分别求平均，得到平均轨迹mean_tr0和mean_tr1。
- 计算差值轨迹delta_tr = mean_tr1 - mean_tr0。
- MF的权重向量W_mf理论上应为inv(C) * delta_tr，其中C是噪声的协方差矩阵。在实际中，为了简化且当不同时间点的噪声近似独立时，常采用W_mf = delta_tr / var(delta_tr)，即用差值轨迹除以自身的方差（一个标量）。这相当于对差值轨迹进行了幅度归一化。
弛豫轨迹标注与RMF训练：
- 执行前面提到的半监督标注算法（Algorithm 1）。这里有一个关键参数是划分“弛豫”的半径。论文采用两中心点距离的一半，这是一个启发式阈值。在实践中，我们可以通过观察“1”态数据在IQ平面的分布，手动调整这个半径，或者采用更鲁棒的聚类方法（如高斯混合模型）来获得更干净的弛豫标签。
- 使用标注出的“弛豫轨迹”和纯净的“0”态轨迹，按照同样的公式训练RMF权重W_rmf。此时，delta_tr_rmf = mean(relax_traces) - mean(ground_traces)。
特征提取与神经网络训练：
- 用训练好的所有MF和RMF，对整个训练数据集进行特征提取。对于每条数据，每个量子比特产生两个特征值：feature_mf = dot(tr, W_mf)，feature_rmf = dot(tr, W_rmf)。
- 将N个比特的2N个特征值拼接成一个向量，作为神经网络的输入。
- 神经网络采用全连接层，激活函数推荐使用ReLU，输出层为softmax，对应所有可能的2^N个计算基态（对于5比特，是32个输出）。损失函数使用分类任务标准的交叉熵损失。
- 实操心得：神经网络的训练数据需要做shuffle，并且确保来自不同量子态制备的数据分布均衡。由于MF和RMF已经完成了大部分特征提取工作，这个网络通常收敛得非常快，过拟合的风险也较低，因此不需要设计得特别深或特别宽。

3.2 FPGA硬件实现要点

将herqles部署到FPGA（如Xilinx的RFSoC系列）上，是实现低延迟的关键。以下是核心模块的实现考量：

解调与MF/RMF滤波模块：
- 数字下变频：在FPGA上实现数字混频器（Numerically Controlled Oscillator, NCO）和低通滤波器，将中频信号解调到基带，得到每个比特的I、Q时序数据。
- 乘累加流水线：MF和RMF的点积运算是典型的乘累加（MAC）操作。需要为每个量子比特实例化两个并行的MAC流水线。考虑到读取轨迹长度（例如500个时间点），可以设计一个深度为500的流水线，每个时钟周期完成一次乘法和累加。使用FPGA的DSP Slice资源可以高效实现。
- 权重存储：MF和RMF的权重向量（W_mf,W_rmf）可以预先计算好，存储在FPGA的Block RAM或分布式RAM中。它们只在量子芯片标定更新时才需要重写。
轻量级神经网络模块：
- 定点量化：这是硬件实现的核心。神经网络的输入（MF/RMF输出）、权重和激活值都必须从浮点数转换为定点数。我们需要进行量化感知训练或训练后量化，以确定最优的位宽（如8位整数）。这能极大减少DSP和BRAM的消耗。
- 层实现：全连接层的计算本质是矩阵向量乘法。对于小规模的网络（如10->20），可以直接展开为并行乘法器。也可以采用时分复用的方式，用一个较大的MAC单元循环计算。选择哪种方式取决于对吞吐量和资源消耗的权衡。
- 激活函数：ReLU函数在硬件上实现成本极低，就是一个比较器和多路选择器。Softmax层在硬件上实现较为复杂，但对于分类任务，通常取输出层中最大值对应的索引作为结果，可以避免复杂的指数和除法运算。
资源评估与时序收敛：
- 根据论文数据，用于5比特的herqles（mf-rmf-nn）设计在类似Zynq UltraScale+的器件上，仅使用了不到8%的LUT资源。这为系统集成留下了巨大空间。我们可以将多个这样的判别器模块集成到同一块FPGA上，同时处理多组频率复用的量子比特，实现真正的规模化。
- 整个数据通路，从ADC数据输入到神经网络判别结果输出，必须在下一个读取操作开始前完成。这意味着我们需要进行精确的时序分析，确保流水线的每一级都满足时钟周期要求。通常，这需要数百纳秒的量级，对于微秒级的读取操作是完全可以接受的。

重要提示：在将模型部署到FPGA之前，一定要在软件环境中（如Python）搭建一个完整的、使用定点数计算的仿真模型，并与浮点模型的结果进行逐位对比验证。这是确保硬件功能正确的关键一步，可以避免在硬件调试中陷入困境。

4. 性能优势与可扩展性分析

Herqles并非只是一个理论上的改进，它在精度、延迟和灵活性上都带来了实质性的提升。我们基于一个真实的五比特超导量子芯片数据集进行了全面对比测试。

4.1 读取精度对比

我们对比了多种判别器架构：

Baseline (FNN-large)：文献[26]中的大型前馈神经网络，直接处理1000维原始数据。
mf：仅使用标准匹配滤波器+阈值分类。
mf-svm：MF输出作为特征，送入支持向量机分类。
mf-nn：MF输出作为特征，送入我们的小型神经网络。
mf-rmf-svm：MF和RMF输出作为特征，送入支持向量机。
mf-rmf-nn (Herqles)：MF和RMF输出作为特征，送入我们的小型神经网络。

结果清晰地展示了分层设计的威力。相比于直接使用MF，增加一个小型神经网络（mf-nn）能有效缓解串扰，带来一定的精度提升。但最大的飞跃来自于引入RMF特征。mf-rmf-nn设计在几乎所有比特上都取得了显著优于基线大型FNN的精度。对于5比特系统的累积保真度（F5Q），herqles达到了92.7%，比基线的91.2%提升了1.5个百分点。不要小看这1.5%，在量子读取领域，这相当于将读取错误率相对降低了超过16%。如果排除其中一个由于实验设置导致信噪比极差的比特（Qubit 2），仅看其他四个比特的累积保真度，相对错误率的降低更是达到了惊人的42.9%。

4.2 延迟与硬件复杂度优势

这是herqles设计的核心目标。我们将三种方案的硬件复杂度与延迟进行对比：

判别器类型	硬件实现位置	关键操作	延迟主要来源	硬件资源消耗 (示例)	可扩展性
软件判别器 (如Baseline FNN)	主机CPU/GPU	数据传输、大型矩阵运算	1. 原始数据从FPGA到主机的传输延迟（~10-100 μs）。 2. 神经网络前向传播时间。	不占用FPGA逻辑资源，但需要强大的主机。	差。数据带宽和主机计算成为瓶颈，比特数增加时延迟线性增长。
简单硬件判别器 (如MF+阈值)	FPGA逻辑	乘累加(MAC)、比较	仅FPGA内部流水线延迟（~0.1-0.5 μs）。	极低。主要为MAC单元和寄存器。	优秀。每个比特独立，资源线性增长。
Herqles (mf-rmf-nn)	FPGA逻辑	MAC、小型神经网络计算	FPGA内部流水线延迟（~0.2-1 μs）。小型神经网络增加了一些计算深度。	低。论文显示5比特系统仅占用约8%的LUT。神经网络因输入维度低而非常小。	优秀。MF/RMF模块可并行复制，小型神经网络随输入维度（2N）线性增长，远低于原始数据维度增长。

从上表可以清晰看出，herqles在硬件复杂度上远低于需要实现大型FNN的方案，使其能够轻松部署在现有的量子控制平台（如基于RFSoC的QICK系统）上。在延迟上，它保持了硬件判别的优势，所有计算在FPGA上实时完成，无需与主机通信，这对于量子纠错中的实时译码等应用至关重要。

4.3 动态读取时长调整：一个被忽略的实用特性

在实验和实际应用中，我们常常希望优化读取时间。更短的读取时间意味着更低的弛豫错误概率和更快的电路循环时间。但传统判别器面临一个尴尬：如果你训练了一个针对1微秒读取数据的神经网络，当你想尝试0.8微秒的读取时，就必须重新收集数据、重新训练模型。

Herqles的架构天然支持动态读取时长调整。因为MF和RMF的权重是基于整个读取时长训练的，但它们的点积运算是可累加的。在推理时，如果我们决定只使用前T个时间点（T < 总时长），我们只需要简单地将MAC运算提前终止在T时刻即可。MF和RMF的输出值会发生变化，但它们所代表的特征（信号与模板的匹配程度）仍然是有效的。后续的小型神经网络已经学会了如何根据这些特征值的变化来做出判断。

这意味着，我们可以用一套训练好的herqles模型，支持多种不同的读取时长。我们在实验中验证，将读取时长缩短25%，herqles的性能依然优于在完整时长上训练的基线大型FNN。这为系统优化提供了巨大的灵活性，允许我们针对不同的量子算法或比特特性，动态调整读取参数，而无需付出重新训练的成本。

5. 实际部署挑战与调优经验

将herqles从论文搬到真实的量子测控系统，会遇到一系列预料之中和预料之外的挑战。这里分享一些我们实践中总结的经验。

5.1 数据质量与标注算法的稳定性

herqles的性能基石是高质量的MF和RMF。这高度依赖于初始训练数据的质量。

状态制备保真度：用于生成“0”和“1”标签数据的量子门操作必须具有高保真度。如果制备的初始态就有误差，会污染整个训练集。在数据采集前，务必对所用量子比特的X门（实现|0>到|1>翻转）进行严格标定。
弛豫标注的敏感性：Algorithm 1中用于识别弛豫轨迹的半径参数是关键。如果设置得太小，会漏掉很多真实的弛豫；如果设置得太大，会将一些噪声大的“1”态误判为弛豫，导致RMF学习到错误的特征。一个实用的技巧是：先用该算法得到一个初步的弛豫数据集，然后人工检查这些轨迹在时间维度上的形态，确认其是否呈现从高能级向低能级衰减的典型特征。可以基于此对算法进行微调。
环境漂移：量子系统的参数（如谐振腔频率、qubit频率）会随时间发生漂移。这会导致之前训练的MF权重失效。解决方案是建立定期的重标定流程。可以设计一个简单的自动化脚本，每天或每半天运行一次标准态（|0>和|1>）的测量，快速计算新的MF权重，并更新到FPGA中。RMF的更新频率可以更低一些。

5.2 硬件实现的量化误差与精度损失

在FPGA上使用定点数运算是必然选择，但这会引入量化误差。

权重与数据位宽选择：MF/RMF的权重和输入数据（I、Q）需要确定位宽。通常，ADC输出是12-16位。权重可以量化为12-18位定点数。位宽太低保真度损失大，位宽太高消耗资源多。需要通过仿真，绘制“位宽-分类精度”曲线，找到精度开始饱和的拐点，作为硬件实现的位宽。
神经网络量化：这是更大的挑战。小型网络对量化相对鲁棒。建议采用“训练后量化”流程：先在浮点上训练好网络，然后使用TensorFlow Lite或PyTorch的量化工具模拟定点运算，对权重和激活进行量化。观察精度下降是否在可接受范围内（例如<0.5%）。如果下降严重，则需要采用“量化感知训练”，在训练过程中模拟量化噪声，让网络适应低精度计算。
累加器位宽：MAC运算中的累加器位宽必须足够大，以防止溢出。对于长度为L的轨迹，累加器位宽至少需要log2(L) + 输入位宽 + 权重位宽。

5.3 系统集成与实时性保障

将herqles模块集成到现有的量子测控软件栈中，需要关注接口和时序。

控制流集成：需要开发FPGA的IP核，并为其提供配置接口（如通过AXI-Lite总线），用于更新MF/RMF权重、神经网络参数，以及选择读取时长等。上层控制软件（如基于Python的量子实验框架）需要能够调用这些配置功能。
数据流集成：ADC数据流需要实时送入herqles处理管道。结果（32个输出概率或最终判别的基态索引）需要以极低的延迟反馈给控制逻辑，用于可能的后继操作（如实时重置）。
时序验证：必须使用硬件时序分析工具，确保从ADC数据输入到判别结果输出的整个路径满足最坏情况下的时序要求。特别是在高时钟频率下，需要精心设计流水线阶段。必要时，可以在神经网络层之间插入寄存器，以提高时序裕量。

5.4 扩展到更多量子比特

论文展示了5比特的组。对于规模扩展，herqles架构依然清晰：

组内扩展：对于频率复用的N个比特，需要N个MF和N个RMF，神经网络输入层为2N。只要N不过大（例如<20），神经网络的增长是线性的，FPGA资源完全可以承受。
组间扩展：大型量子处理器通常有多个独立的读取通道。每个通道可以部署一个独立的herqles实例。它们之间没有关联，因此扩展是并行的。
跨组串扰：当前设计主要解决组内（频率复用）串扰。如果存在跨通道的串扰，可能需要将不同组的特征合并到更大的神经网络中，但这会迅速增加复杂度。更实用的方法是在硬件和脉冲层面优化隔离度。

6. 未来展望与潜在优化方向

Herqles为高精度、低延迟的量子读取打开了一扇门，但这条路还可以走得更远。结合社区的发展和我们自己的思考，有几个方向值得深入探索：

自适应滤波与在线学习：目前的MF和RMF是静态的。能否让滤波器具备一定的自适应能力？例如，根据实时监测的系统噪声谱，微调MF的权重模板。更进一步，能否设计一个极简的在线学习循环，让小型神经网络能够根据近期测量结果的统计特性，轻微调整其权重，以补偿系统的慢速漂移？这需要在硬件上实现微量的梯度计算和更新，是一个有趣的挑战。

与纠错码的深度结合：herqles输出的不再是简单的0/1硬判决，而是32种可能状态的概率分布（对于5比特）。这些“软信息”对于量子纠错译码器来说是黄金。传统的译码器只接收硬判决的综合征信息。未来可以将herqles的软输出直接馈入更先进的基于置信度传播的译码算法中，有望显著降低逻辑错误率。

探索更高效的神经网络结构：我们目前使用的是简单的全连接网络。对于更多的比特数，输入维度增长，网络大小也会增长。是否可以探索其他硬件友好的网络结构？例如，使用二值化权重网络（Binary Neural Networks）或加法网络（AdderNets）来进一步压缩模型，降低功耗和延迟。或者，利用比特间串扰的局部性，采用卷积层来提取特征，可能用更少的参数获得更好的效果。

面向应用的定制化读取：herqles支持动态读取时长的特性尚未被充分挖掘。在复杂的量子算法中，不同比特、不同算法步骤对读取速度和精度的要求可能是不同的。未来可以开发一套API，允许算法层根据当前需求，动态地为每个比特或每组比特选择最优的读取时长，在速度和精度之间进行实时、精细的权衡。

这个领域正在飞速发展，硬件高效的机器学习架构无疑将是推动量子计算从实验室走向实际应用的关键拼图之一。Herqles是一个起点，它证明了通过巧妙的算法与硬件协同设计，我们完全可以在不牺牲性能的前提下，将强大的智能推到离量子比特最近的地方。

查看全文

http://www.jsqmd.com/news/874967/