当前位置：首页 > news >正文

FPGA神经网络加速器在超导量子比特实时读取中的应用与实现

news 2026/7/13 13:35:02

1. 项目概述：当FPGA神经网络遇上量子比特读取

在超导量子计算的实验世界里，有一个环节既关键又充满挑战：量子比特状态的快速、准确读取。你可以把它想象成一场极其精密的“听诊”——我们需要在极短的时间内，捕捉到量子比特与谐振腔相互作用后产生的、极其微弱且被噪声淹没的射频信号，并立刻判断出这个量子比特当前是处于“0”态（基态）还是“1”态（激发态）。传统的处理方法，比如简单的阈值判决或匹配滤波，虽然有效，但在面对更复杂的多比特系统、串扰或动态变化的实验环境时，其性能天花板很快就触手可及。

与此同时，在另一个技术领域，FPGA上的神经网络硬件加速正蓬勃发展。工具链如hls4ml的出现，让研究者能够将训练好的神经网络模型，直接转换为高度优化的硬件描述语言（HDL），在可编程逻辑（PL）上实现超低延迟的推理。这听起来就像是专为量子读取这个“实时信号处理”难题量身定制的解决方案。我们这次的工作，正是将这两条技术路线深度融合：基于QICK这个开源的量子仪器控制套件，利用hls4ml工具链，设计并实现了一个部署在FPGA上的神经网络加速器IP核，专门用于实时判别超导量子比特的状态。

这个方案的核心价值在于“协同设计”与“端到端优化”。我们不是简单地把一个软件神经网络模型扔给FPGA，而是从模型架构设计阶段就充分考虑了硬件实现的约束与优势。最终，在Xilinx ZCU216 RFSoC平台上，我们实现了在量子比特读取脉冲结束后仅32纳秒（10个时钟周期）内完成状态判别的惊人速度，同时保持了与经典方法相当的保真度（约96%）。这为未来实现基于实时机器学习判别的量子纠错和反馈控制，扫清了一个关键的速度障碍。如果你是一名量子实验物理学家、FPGA数字设计工程师，或是对边缘AI与前沿科学交叉领域感兴趣的开发者，那么这次将神经网络“烧录”进量子控制系统的实践，或许能给你带来一些新的思路。

2. 核心设计思路：为何是QICK + hls4ml的协同设计？

要理解这个项目的设计精髓，我们需要拆解三个核心部分：为什么选择QICK作为硬件平台？为什么用hls4ml来实现神经网络？以及，为什么“协同设计”是成败的关键？

2.1 QICK平台：量子实验的“全能数字基带”

QICK并非一个普通的FPGA开发板，它是一个专为超导量子比特和探测器控制与读取而设计的完整软硬件系统。其核心是一个运行在RFSoC芯片上的定制化固件和配套的软件栈。RFSoC芯片集成了多通道的高速ADC（模数转换器）、DAC（数模转换器）和强大的可编程逻辑（PL）与处理系统（PS），这使它天生就是处理射频信号的利器。

在传统的量子控制系统中，生成微波控制脉冲和读取返回信号可能涉及多个独立的仪器（如任意波形发生器、数字化仪），它们之间通过线缆连接，会引入额外的延迟和噪声。QICK将这些功能全部集成到一块芯片上，在PL部分实现了一个称为“tProc”的轻量级处理器，用于编排控制脉冲序列；同时，ADC采集到的读取信号（I/Q两路正交数据）直接在PL内部进行流式处理。这种高度集成化带来了两个巨大优势：一是极低的内部延迟，信号从ADC出来到被处理，路径极短；二是灵活的架构，我们可以在PL内部任意插入自定义的数字信号处理（DSP）模块，比如我们的神经网络加速器。

我们的设计目标，就是将神经网络判别器作为一个IP核，无缝插入到QICK已有的读取数据流中。ADC数据像一条河流，我们的神经网络IP就是河上的一个“智能水闸”，实时对流过它的每一段数据（对应一次读取）进行分析并输出结果。

2.2 hls4ml工具链：从PyTorch/TensorFlow模型到FPGA比特流的桥梁

在FPGA上实现神经网络，传统方法需要手工编写RTL（寄存器传输级）代码来描述每一个计算层（如全连接层、激活函数），这无疑是繁琐且容易出错的。hls4ml的出现改变了游戏规则。它允许用户直接使用高级框架（如PyTorch, TensorFlow/Keras）训练和量化模型，然后通过一个转换流程，自动生成用于Vivado HLS（高层次综合）的C++代码。Vivado HLS则负责将这些C++描述综合成优化的RTL代码。

这个过程的关键在于“量化”。神经网络模型通常使用32位浮点数（float32）进行训练，但这对FPGA的DSP和BRAM资源消耗是巨大的。hls4ml支持将权重和激活值量化到更低的位宽，例如我们项目中使用的三元量化（Ternary Quantization），即权重被约束为{-1, 0, +1}三个值。这种量化带来了多重好处：首先，乘法运算可以简化为符号位的选择和加法/减法操作，甚至完全避免使用昂贵的DSP单元，主要用查找表（LUT）和寄存器（FF）即可实现，极大地节省了资源。其次，数据位宽变窄，意味着在同样的总线带宽下可以传输更多数据，或者减少对存储器的访问压力。

注意：量化并非无损的，它会在模型精度和硬件效率之间进行权衡。hls4ml提供了训练后量化（PTQ）和量化感知训练（QAT）两种方式。对于高精度要求的应用，QAT通常能获得更好的效果，因为它让模型在训练阶段就“适应”了低精度计算。

2.3 协同设计闭环：算法与硬件的共舞

“协同设计”是这个项目最核心的方法论。它不是一个线性的“先训练模型，再部署硬件”的过程，而是一个迭代的闭环：

硬件约束指导模型设计：我们在设计神经网络结构（如层数、每层神经元数量）时，就必须预先评估其在目标FPGA（ZCU216）上的潜在资源消耗和延迟。一个动辄几百个神经元的庞大网络，即使精度再高，如果无法在规定的时钟周期内完成计算或塞不进芯片，也是无用的。
模型优化反馈硬件实现：我们选择三元量化，不仅因为它对精度损失相对较小，更因为它能导出对FPGA极其友好的硬件结构。权重为0可以跳过计算，权重为±1则只需进行数据通路的选通和累加，这直接影响了最终生成的硬件逻辑结构。
数据流与接口的定制：我们不是设计一个通用的神经网络加速器，而是一个专为QICK数据流定制的IP。这意味着IP的接口必须与QICK系统的AXI-Stream数据流、tProc的触发信号、以及用于存储结果的BRAM内存接口完美匹配。hls4ml允许我们自定义顶层函数接口，从而将其“嵌入”到既有的系统中。

这种深度协同，确保了最终的实现不仅在算法上有效，更在工程上是可行、高效且与控制系统浑然一体的。它避免了“软硬脱节”的常见问题，使得32纳秒的超低延迟成为可能。

3. 神经网络加速器IP的硬件架构与实现细节

理解了设计思路，我们深入到硬件内部，看看这个神经网络IP核具体是如何构建和工作的。整个IP核可以看作一个精心设计的数据处理管道，与QICK平台紧密耦合。

3.1 整体架构与外部接口

我们的IP核作为QICK系统中的一个从设备（Slave）存在。其外部接口主要分为三类：

控制与配置接口（AXI4-Lite）：这是一个由PS（处理器系统）通过AXI4-Lite总线访问的从接口。PS上的软件驱动通过它来对IP核进行配置（如设置读取偏移量readout_offset、神经网络窗口大小window_size）和状态查询。它映射到一系列内��映射寄存器。
数据流输入接口（AXI-Stream）：这是IP核的“数据粮道”。它直接连接到QICK内部读取链路的ADC数据流。数据以32位宽打包传输，高16位和低16位分别承载了I路和Q路的14位采样值（实际使用14位，剩余位填充）。TVALID和TREADY信号遵循AXI-Stream协议，实现背压控制，但在我们优化后的设计中，IP核处理速度足够快，几乎不会出现反压。
触发与时钟接口：一个关键的trigger输入端口，直接连接到tProc。当tProc执行到发送读取脉冲的指令时，会同步产生一个触发脉冲给神经网络IP，告知它“数据即将到来，准备开始处理指定窗口的数据”。IP核的主时钟clk与QICK系统的数据流时钟同步，在我们的实现中为307.7 MHz（周期3.25 ns）。

此外，IP核内部包含一块由Block RAM（BRAM）实现的双端口存储器，用于暂存推理结果。一个端口由IP核的存储逻辑写入，另一个端口通过AXI4-Lite接口暴露给PS读取。这种松散耦合的设计，使得PS可以在不妨碍IP核实时处理的前提下，异步地取走结果进行后续分析或记录。

3.2 内部状态机与流水线设计

IP核内部由一个状态机控制，其执行流程与图9所示的波形完全对应，分为四个清晰阶段：

配置阶段（Configure）：系统上电或复位后，PS通过AXI4-Lite总线配置IP核的参数寄存器。这些参数决定了IP核的行为，例如readout_offset定义了从触发信号上升沿开始，需要跳过多少个时钟周期才开始采集有效数据，这用于对齐读取脉冲的特定部分。
数据加载阶段（Load）：当trigger信号有效后，状态机进入加载阶段。在经过readout_offset个周期的延迟后，IP核开始从AXI-Stream接口连续读取数据。读取的总时钟周期数等于window_size，即神经网络输入层的大小（例如400个时钟周期，对应400对I/Q采样点）。在此期间，数据被实时存入IP核内部的输入缓冲区（通常由分布式RAM或BRAM实现）。
神经网络计算阶段（Compute）：当window_size个数据全部加载完毕，计算阶段立即开始。这是核心的推理流水线。由于我们采用了三元量化和充分的流水线/并行化设计，整个前向传播过程被压缩在极短的周期内完成。在我们的测试中，对于不同的网络模型，推理延迟在5到20个时钟周期之间。这意味着数据进入计算单元后，最快只需5个时钟周期（约16.25 ns）就能流出结果。
结果存储阶段（Store）：计算完成后，得到两个logit值（分别对应基态和激发态的“得分”）。状态机用2个时钟周期，将这两个结果通过一个简单的内存接口写入到外部的共享BRAM中。写入地址由IP核内部的一个地址计数器管理，确保每次结果都存入连续的位置。

这四个阶段是流水进行的。当前一次读取还在进行存储阶段时，下一次读取的加载阶段可能已经可以开始了（只要trigger信号再次到来），这最大限度地提高了吞吐率。

3.3 计算核心的微架构优化

神经网络计算单元的微架构是实现低延迟的关键。hls4ml在综合时，会根据我们设定的“复用因子”等策略，在空间并行性和资源消耗之间取得平衡。

矩阵向量乘法的并行化：全连接层的核心是矩阵向量乘法。我们可以通过展开循环，让多个乘法累加操作在同一时钟周期内并行执行。例如，如果输入层有400个神经元，下一层有50个，我们可以选择同时计算下一层中多个神经元的加权和。并行度越高，延迟越低，但消耗的LUT和FF资源也越多。
三元权重的硬件简化：这是资源节省的“神来之笔”。因为权重只能是-1， 0， +1，所以乘法器不需要了。对于权重为0的连接，对应的输入数据直接被忽略，不参与任何计算。对于权重为+1的连接，输入数据直接传递到累加器；对于权重为-1的连接，输入数据取反后传递到累加器。这本质上变成了数据选择、取反和加法操作，全部可以用LUT和FF高效实现。
激活函数的低成本实现：我们通常使用ReLU或其变体作为激活函数。ReLU的实现非常简单：如果输入大于0则输出输入值，否则输出0。这只需要一个比较器和一个多路选择器，硬件开销极小。hls4ml会自动将这些操作转换为对应的逻辑电路。

通过上述优化，神经网络计算被转化为一个高度定制化、深度流水线的数据通路，每一个时钟周期都有一批数据在不同的计算阶段中向前流动，最终在固定的、极短的周期数后吐出结果。

4. 软件栈与API：让硬件变得可编程

再强大的硬件，也需要便捷的软件接口来驱动和调试。我们在QICK原有的Python API基础上，扩展了一套用于控制神经网络分类器的函数，使得实验物理学家可以像调用普通函数一样操作这个硬件加速器。

4.1 驱动层：寄存器映射与内存访问

底层驱动负责与FPGA逻辑的直接对话。所有对IP核的控制，最终都体现为对特定内存地址的读写操作。AXI4-Lite总线将IP核内部的配置寄存器、状态寄存器和结果BRAM，映射到PS的物理地址空间。Python API通过Linux内核的/dev/mem设备或UIO（Userspace I/O）驱动，直接读写这些物理地址，从而实现配置和控制。

例如，readout_offset和window_size这两个参数，在IP核内部各对应一个32位的寄存器。当调用configure_classifier(offset=100, window=400)时，API函数会计算这两个寄存器对应的物理地址，并将值100和400分别写入。

4.2 用户层API详解

我们提供的Python API设计力求直观，隐藏底层硬件细节。主要函数包括：

reset_classifier(index_lo=0, index_hi=0): 复位分类器。将内部状态机、地址计数器和指定的结果缓冲区（BRAM范围）清零。index_lo和index_hi参数允许选择性复位部分结果内存，这在长时间连续运行、只想清除一段旧数据时非常有用。
configure_classifier(readout_offset=100, window_size=400, scaling_factor=1.0, debug=False): 核心配置函数。设置读取偏移、网络窗口大小以及一个可选的缩放因子（用于对输入数据进行定点数缩放）。当debug=True时，函数会打印出详细的配置过程信息，方便排查问题。
get_classifier_prediction_count(): 返回一个整数，表示自上次复位以来，分类器已经完成并存储的预测结果总数。这是监控IP核是否正常工作的最直接指标。
get_classifier_prediction(index): 从结果BRAM中读取指定索引index处的预测结果。返回一个元组(logit_g, logit_e)，即基态和激发态的logit值。用户可以通过比较这两个值的大小来判断量子比特状态（值大的对应类别）。
get_classifier_predictions_range(start_idx, end_idx): 批量读取一段连续索引的预测结果，返回一个列表。这比多次调用单次读取函数效率高得多。
print_classifier_buffer(start_idx, end_idx): 调试利器。以十六进制或十进制的格式，打印出指定范围内BRAM的内容。这不仅能看预测结果，还能检查原始数据是否被正确写入，是验证数据流是否对齐的重要手段。

4.3 集��到QICK实验流程

在真实的量子实验脚本中，使用这个神经网络分类器变得非常自然：

# 初始化QICK系统 qick = Qick(...) # 获取神经网络分类器对象 nn_classifier = qick.nn_classifier # 1. 复位并配置分类器 nn_classifier.reset_classifier() nn_classifier.configure_classifier(readout_offset=100, window_size=400) # 2. 定义并加载一个QICK程序，其中包含发送读取脉冲的指令 prog = QickProgram(...) # ... 设置脉冲序列 ... prog.trigger(trigger_pin) # 这个触发信号会同时发给ADC和我们的NN IP # 3. 执行程序，触发硬件开始运行 qick.run(prog) # 4. 稍等片刻（远小于1毫秒），即可读取结果 pred_count = nn_classifier.get_classifier_prediction_count() if pred_count > 0: logit_g, logit_e = nn_classifier.get_classifier_prediction(0) state = 0 if logit_g > logit_e else 1 print(f"Predicted qubit state: {state}, logits: ({logit_g:.2f}, {logit_e:.2f})")

整个流程清晰表明，神经网络判别已经成为了量子控制指令集的一个原生部分，实现了从“脉冲生成”到“状态判别”的全硬件闭环。

5. 性能评估与资源消耗分析

任何FPGA设计都必须面对两个终极拷问：它有多快？它用了多少资源？我们的设计在这两方面都交出了令人满意的答卷。

5.1 时序性能：32纳秒的突破

延迟是量子反馈控制的生命线。我们的性能指标如下：

总处理延迟：从读取脉冲结束（即window_size个数据点传输完毕）到预测结果被写入BRAM，总共需要10个时钟周期。在307.7 MHz的时钟频率下，这相当于32.5纳秒。
- 推理计算延迟：占8个周期（~26 ns）。这是神经网络前向传播的纯计算时间。
- 结果存储延迟：占2个周期（~6.5 ns）。用于将两个logit值写入内存。
吞吐率：理论上，只要两次读取之间的间隔大于（window_size+ 10）个时钟周期，IP核就能连续处理。对于500个周期（1.6 µs）的读取窗口，IP核的计算时间几乎可以忽略不计，瓶颈在于数据加载速度。因此，系统吞吐率主要由读取脉冲的重复速率决定。

这个32纳秒的延迟是什么概念？它远低于超导量子比特的退相干时间（通常为几十微秒到毫秒量级），也足以满足大多数量子纠错协议对反馈速度的要求。这意味着，基于这个判别结果，我们完全有时间在同一个量子电路（即“mid-circuit”）中做出决策并施加反馈脉冲。

5.2 资源利用：高效的代价

我们在Xilinx Zynq UltraScale+ RFSoC ZCU216开发板上进行了实现。该芯片的可用资源和我们设计的占用情况对比如下：

资源类型	芯片总量	QICK基础平台占用	QICK+NN占用	NN IP额外开销
查找表 (LUT)	425,280	60,057 (14.12%)	126,726 (29.80%)	+66,669 (15.68%)
触发器 (FF)	850,560	89,783 (10.56%)	124,152 (14.60%)	+34,369 (4.04%)
块存储器 (BRAM)	1,080	309 (28.61%)	341 (31.57%)	+32 (2.96%)
数字信号处理器 (DSP)	4,272	481 (11.26%)	481 (11.26%)	+0 (0.00%)

分析解读：

LUT消耗最大：神经网络IP额外消耗了约15.7%的LUT。这完全符合预期，因为三元量化后的网络，其计算核心主要由LUT构成的组合逻辑和流水线寄存器（FF）来实现。LUT用于实现加法器、数据选通、激活函数等所有逻辑操作。
DSP零消耗：这是三元量化带来的最直接好处。所有乘法操作都被消除，因此没有使用任何DSP48E2硬核。节省下来的DSP资源可以留给QICK平台其他更需要乘法的信号处理模块（如数字上/下变频）。
BRAM占用增加有限：仅增加了2.96%。这部分BRAM主要用于存储输入缓冲数据、中间层激活值（如果网络较深）以及最终的输出缓冲区。由于我们使用了较小的网络（输入400，隐藏层约数十个神经元），且数据位宽被量化降低，所以对存储的需求可控。
FF占用适中：4.04%的增长主要来自于流水线寄存器。为了达到高时钟频率，计算路径必须被切割成多个较短的阶段，每个阶段之间都需要用寄存器打拍，这增加了FF的使用。

总体来看，神经网络IP的加入，在未使用任何DSP的情况下，主要消耗了LUT和FF资源，总资源占用仍在芯片能力范围内，为系统的其他功能留出了充足空间。

5.3 保真度验证：与传统方法媲美

性能不能只看速度，准确率才是根本。我们进行了50万次单次读取实验，分别制备量子比特到基态和激发态，并同时记录神经网络输出的logits和原始的I/Q时间序列数据。

实验结果显示，神经网络判别器的读取保真度达到了约96%。这个数值与我们使用相同的400个数据点，采用简单的阈值法或匹配滤波法得到的保真度相当。这说明，在这个单比特场景下，我们的硬件神经网络在速度提升数个数量级的同时，没有牺牲判别精度。

实操心得：保真度达到96%并不意味着神经网络算法没有优势。在单比特理想情况下，线性方法（如匹配滤波）本身已接近最优。神经网络的潜力在于其非线性处理能力。当系统扩展到多比特、存在串扰、或者 resonator 的频率发生漂移时，神经网络的鲁棒性和自适应能力将可能展现出超越传统线性方法的性能。我们的工作首先证明了硬件实现的可行性，为后续探索更复杂场景下的优势铺平了道路。

6. 常见问题、调试技巧与未来展望

在实际部署和测试过程中，我们遇到并解决了一系列工程问题。这里分享一些典型的排查思路和技巧，或许能帮你绕过我们踩过的坑。

6.1 数据对齐问题：触发器与数据流的同步

这是集成中最常见也最棘手的问题之一。现象是：神经网络IP有时能输出看似合理的结果，有时又全是乱码。

根本原因：trigger信号、ADC数据流和IP核内部状态机之间的时序没有严格对齐。readout_offset参数设置不当，导致IP核加载的窗口并非真正的读取信号响应部分，可能包含了脉冲尾巴或纯粹的噪声。
排查方法：
1. 软件仿真：在Vivado HLS或Vivado中，对IP核进行行为级仿真，输入一段已知的模拟I/Q数据，检查输出是否正确。这能排除IP核自身逻辑错误。
2. 内嵌逻辑分析仪（ILA）：在Vivado中为关键信号（trigger,in_TVALID,in_TDATA, 内部状态机状态，输出缓冲写使能和数据）添加ILA核。在实际FPGA上运行实验，触发ILA捕获波形。对照图9的理想波形，逐一检查每个阶段的信号是否按预期跳变。
3. 缓冲区打印：使用print_classifier_buffer函数，在配置不同的readout_offset后，读取IP核输入缓冲区或结果缓冲区的内容。与已知的、通过软件保存的原始ADC数据对比，看加载到IP核里的数据是否一致。
解决方案：仔细校准readout_offset。可以通过一个校准实验来确定：发送一个读取脉冲，用软件记录下完整的ADC返回数据。在软件中模拟一个滑动窗口，用训练好的神经网络模型（例如用PyTorch）计算每个偏移量下的输出，找到判别置信度最高的偏移量。这个偏移量就是硬件IP核应该设置的readout_offset。

6.2 资源利用率与时序违例

在实现过程中，Vivado布局布线后报告时序违例（Timing Failure），或者资源利用率接近甚至超过100%。

原因分析：
- 时钟频率过高：307.7MHz对于复杂的组合逻辑路径可能太紧。
- 神经网络结构过于复杂：层数太多或每层神经元过多，导致关键路��过长。
- hls4ml综合策略不当：未合理设置“复用因子”（ReuseFactor），导致硬件过度并行化，资源爆炸且布线困难。
优化策略：
1. 降低时钟频率：如果系统允许，尝试降低IP核的工作时钟频率。QICK的数据流时钟可能固定，但可以尝试让神经网络IP运行在分频后的时钟域，并通过异步FIFO进行跨时钟域数据交换。
2. 简化网络模型：回顾模型设计。是否所有层都是必要的？能否减少隐藏层的神经元数量？在硬件上，模型的“瘦身”对资源和时序的改善是立竿见影的。
3. 调整hls4ml配置：增加ReuseFactor。这个因子意味着同一个计算单元（如乘法累加单元）在时间上被复用来计算多个输出。因子越大，硬件并行度越低，资源用得越少，延迟会增加，但通常更易于满足时序。需要在延迟、资源和时序之间找到平衡点。
4. 流水线打拍：在hls4ml的代码中，在合适的循环层次插入#pragma HLS PIPELINE指令，或者调整流水线的启动间隔（II），引导工具生成更优的流水线结构。

6.3 量化误差导致的精度下降

在FPGA上运行的量化模型，其精度低于软件浮点模型。

排查：在Python中，使用hls4ml的qonnx或相关API，模拟硬件上的定点数推理，将结果与浮点模型推理结果对比。如果误差显著，问题出在量化过程。
解决：
- 采用量化感知训练（QAT）：在模型训练阶段就模拟量化操作，让模型权重适应低精度表示。这通常能大幅提升量化后的精度。
- 调整量化位宽：如果资源允许，可以尝试将激活值或某些层的权重从三元（2-bit）提升到4-bit或8-bit整数。
- 调整缩放因子：在configure_classifier中有一个scaling_factor参数。这个因子用于在数据输入网络前进行缩放。不当的缩放会导致定点数动态范围利用不充分，引入误差。需要通过分析输入数据的统计分布来校准这个因子。

6.4 未来展望：从单比特判别到量子系统智能控制

本次工作成功验证了端到端工作流的可行性，但这只是一个起点。基于此，有多个激动人心的方向值得深入探索：

实时反馈集成：目前，判别结果存储在BRAM中，由PS异步读取。下一步是将判别结果直接接入QICK的tProc条件跳转指令。例如，tProc可以实时读取NN IP的输出，如果判别为激发态，则立即触发一个重置脉冲；如果判别为基态，则继续执行后续操作。这将实现真正的、硬件在环的量子反馈控制。
面向多比特与串扰的模型：当前网络针对单比特优化。对于多比特系统，读取信号会因串扰而变得复杂。可以设计卷积神经网络（CNN）或注意力机制的网络，以多个谐振器的I/Q时序数据作为输入，同时判别多个比特的状态。hls4ml同样支持这些复杂结构的转换，但需要更精细的硬件资源管理。
自适应与在线学习：目前的网络是静态的、预先训练好的。未来的终极目标是让系统能够自适应环境变化（如温度漂移导致谐振频率变化）。一种思路是结合强化学习，让控制系统根据读取结果自动调整后续操作策略，甚至在线微调神经网络的少量参数。这需要将训练循环的某些部分也硬件化，挑战巨大但意义深远。
低温集成：为了最终实现大规模量子计算，控制电子学需要尽可能靠近量子芯片以降低噪声和延迟。将包含神经网络加速器的RFSoC或定制化ASIC置于低温环境中（Cryo-CMOS）是一个前沿研究方向。我们的工作为这种低温嵌入式智能处理单元提供了算法和硬件设计上的参考。

这个项目所有的代码、数据集和文档都已开源。我们相信，开放的合作与持续的优化，将是推动量子计算控制系统走向更智能、更快速未来的关键。硬件、算法与量子物理的交叉，正孕育着下一代量子仪器的雏形。

查看全文

http://www.jsqmd.com/news/879193/