当前位置：首页 > news >正文

量子机器学习实战：跨越NISQ时代的编码、训练与硬件挑战

news 2026/7/12 2:23:12

1. 量子机器学习：从理论到实践的鸿沟与机遇

量子机器学习（QML）这个领域，听起来像是科幻小说里的概念，但它正实实在在地从实验室走向现实。简单来说，它试图用量子计算机的“超能力”——叠加和纠缠，来跑我们熟悉的机器学习模型。想象一下，你有一台能同时探索无数条路径的计算机来处理数据，这听起来就像是给AI装上了火箭引擎。尤其在化学模拟、药物分子筛选这些传统计算机算到天荒地老的领域，QML被寄予厚望，因为它理论上能在某些问题上实现指数级的加速。

但作为一名在这个交叉领域摸爬滚打多年的从业者，我必须告诉你，现实远比蓝图骨感。我们正处在一个激动人心却又充满挑战的“嘈杂中等规模量子”（NISQ）时代。这个阶段的量子硬件，就像上世纪四五十年代的经典计算机，庞大、脆弱、容易出错。而QML算法，也远未成熟到可以“开箱即用”的程度。核心的矛盾在于：我们拥有极具潜力的量子计算范式，却受限于硬件的不稳定性和算法理论的不完备性。这篇文章，我想和你深入聊聊QML落地过程中，那些横亘在数据编码、模型训练和硬件实现之间的核心挑战，以及我们一线研究者正在尝试的破局思路。这不是一篇综述，而是一份基于实战经验的“排雷”指南。

2. 数据编码：量子模型的“第一公里”瓶颈

任何机器学习任务的第一步，都是把数据喂给模型。在QML里，这一步叫“数据编码”，即把经典数据（比如一个分子结构、一张图片的像素值）映射成一个量子态。这一步看似基础，实则直接决定了整个模型的性能天花板、资源消耗，甚至决定了量子模型是否真的比经典模型有优势。

2.1 主流编码策略的权衡：角度编码 vs. 振幅编码

目前最常用的两种编码方式是角度编码和振幅编码，它们代表了效率与表达能力之间的根本权衡。

角度编码是目前NISQ设备上的“务实之选”。它的原理很直观：将每个经典数据点作为一个旋转角度，加载到单个量子比特的量子门操作上（比如一个RX门）。例如，对于一个数据点x，我们执行操作RX(x)到某个量子比特上。这种方法的优势极其明显：电路深度浅，需要的量子门数量少，对硬件错误相对鲁棒。在目前量子比特相干时间有限、门操作保真度不高的背景下，角度编码几乎是唯一能跑起来的方案。

但它的代价也很大：信息密度极低。N个量子比特只能编码N个经典数据点（每个比特一个角度）。这完全无法利用量子态所在希尔伯特空间的指数级容量。因此，使用角度编码的量子模型，很难在理论上证明其相对于经典模型的复杂度优势，更多是作为一种原理验证或特定特征映射的探索。

振幅编码则走向另一个极端，它追求极致的信息密度。其目标是将一个长度为2^N的经典数据向量，编码为N个量子比特的量子态振幅。这样一来，N个量子比特就能编码指数级（2^N）的经典信息。这听起来是量子优势的完美体现——用对数级的资源处理指数级的数据。

然而，实现振幅编码的代价是巨大的。制备一个任意的、指定的量子态（即执行任意的态制备电路），在最坏情况下需要指数级数量的量子门（尤其是纠缠门如CNOT）。这不仅在当前硬件上几乎不可能实现，即使在未来，其资源消耗也可能抵消掉编码带来的信息密度优势。更棘手的是，为了从量子态中读取这些振幅信息，我们往往需要进行量子态层析，这本身又是一个需要大量重复测量、复杂度极高的过程。

2.2 前沿编码方案的探索与突围

面对上述困境，社区并没有坐以待毙，而是发展出一些巧妙的“曲线救国”方案：

数据重上传：既然一次性把大量数据编码进去太难，那就分批多次上传。这个思路类似于经典神经网络的多层感知，通过一个较浅的变分量子电路多次重复编码和处理数据子集，从而用深度换宽度，间接提升了模型的表达能力。它降低了对单次态制备复杂度的要求，但增加了电路深度和训练参数。

量子傅里叶特征编码：这是近期一个非常亮眼的工作。它利用量子傅里叶变换的性质，将数据编码到量子态的相位中，能够以接近硬件友好的方式（电路深度可控）实现指数级的特征映射。我在一些分子势能面学习的实验中尝试过这种方法，发现其模型表达能力和学习性能确实显著优于简单的角度编码和部分数据重上传方案。它的核心在于，通过精心设计的量子电路，隐式地构造了一个高维（甚至是无限维）的再生核希尔伯特空间，让线性模型在这个空间里也能做出复杂的决策。

面向任务的编码优化：我们逐渐意识到，追求“通用”的完美编码可能是个伪命题。更务实的思路是：根据具体任务来设计或选择编码。例如，如果你的输入数据天然具有某种对称性（比如分子结构的旋转不变性），那么设计一个等变的编码方式，可以极大提升模型的学习效率和泛化能力。又或者，在某些生成式模型中，我们不需要精确知道输入的量子态，而是可以通过训练过程让模型自己“学会”一个有效的内部表示。

实操心得：在选择编码方案时，我通常会遵循一个“可行性优先”的准则。在真实硬件或高保真模拟器上跑通一个简单模型，远比在理论上设计一个复杂但无法实现的模型更有价值。我的建议是，从角度编码或极浅的振幅编码变体开始，验证任务的基本流程。待流程跑通后，再逐步尝试量子傅里叶特征编码等更高级的方法，并仔细评估其带来的性能提升是否值得增加的电路深度和复杂度。

3. 模型训练：穿越“贫瘠高原”与梯度计算的迷雾

假设我们成功将数据编码成了量子态，接下来就是设计一个变分量子电路（VQC，你可以理解为量子版的神经网络）来处理它，并通过训练优化电路的参数。这里，我们遇到了QML训练中最著名的两大“拦路虎”：贫瘠高原和梯度计算的开销。

3.1 贫瘠高原：量子版本的梯度消失

在经典深度学习里，我们有梯度消失问题；在量子世界里，我们有它的“加强版”——贫瘠高原。具体来说，当你的变分量子电路参数随机初始化，且电路深度（层数）随着量子比特数增加而增加时，损失函数关于各个参数的梯度（即指导参数更新的方向）的期望值会指数级地趋近于零。这意味着，优化算法就像被困在了一片广阔平坦的高原上，完全找不到下降的方向，训练根本无法启动。

为什么会出现这种现象？深层原因与量子电路的纠缠和随机性有关。当电路足够深、足够随机时，它输出的量子态会均匀地覆盖整个巨大的希尔伯特空间。此时，改变任何一个参数，对最终观测结果的影响都微乎其微，导致梯度消失。

3.2 应对贫瘠高原的实战策略

理论研究已经为我们指明了几条可能的出路，我在实践中也验证了部分策略的有效性：

设计浅层电路：这是最直接有效的方法。既然深度是敌人，那就尽量使用浅层电路。但这会限制模型的表达能力。因此，我们需要在“浅”和“够用”之间找到平衡，通常需要结合问题先验知识来精心设计电路结构（Ansatz），比如使用问题哈密顿量启发的硬件高效层。
聪明的参数初始化：完全随机初始化是灾难性的。我们可以采用一些启发式方法，例如：
- 基于问题哈密顿量的初始化：将参数初始化为接近问题解的小范围随机值。
- 层递进式训练：先训练一个非常浅的电路，收敛后固定其参数，再添加新的层并训练新参数，逐步加深。
- 迁移学习：利用在类似任务上预训练好的电路参数作为起点。
利用局部测量和纠缠结构：最新的理论突破（如Ragone等人的工作）表明，贫瘠高原并非绝对。通过设计使用局部测量（而非全局测量）和可控纠缠结构的电路，即使电路较深且具有高纠缠度，也有可能避免贫瘠高原。这打破了“深层必死”的旧有观念，为设计更强大的量子模型打开了新思路。在实践中，这意味着我们不应盲目追求电路的通用性，而应设计贴合具体问题结构的专用电路。

3.3 量子梯度计算：昂贵的“价格标签”

即使我们避开了贫瘠高原，训练一个VQC还需要计算梯度来更新参数。在经典神经网络中，反向传播算法可以高效地计算所有参数的梯度。但在量子计算中，由于无法直接访问中间量子态的振幅，我们无法简单实现量子版的反向传播。

目前的主流方法是参数平移法。其原理基于一个数学事实：对于某些由参数化旋转门构成的量子电路，其期望值关于某个参数的导数，可以通过计算该参数在两个特定偏移点（通常相差π/2）的期望值之差来得到。虽然精确，但这个方法的代价极高：为了计算M个参数的梯度，至少需要运行2M次量子电路（每次电路执行都需要大量重复测量以获得稳定的期望值）。这使得训练的参数规模受到严重限制。

为了突破这个瓶颈，新的量子反向传播算法正在涌现。例如，Abbas等人提出的方法，将梯度计算复杂度从O(M²)降低到了O(M polylog(M))，这是一个显著的进步。其核心思想是巧妙地复用中间测量结果，避免重复计算。尽管这些方法目前大多还处于理论或小规模验证阶段，但它们指明了减少梯度计算资源开销的重要方向。

3.4 无梯度优化：另辟蹊径

既然梯度计算这么贵，一个自然的想法是：能不能不用梯度？这就是无梯度优化方法，例如COBYLA算法，在QML社区早期被广泛使用。它通过比较不同参数点处的函数值来寻找最优解，完全避免了梯度计算。

然而，COBYLA等无梯度方法在参数较多时（比如超过几十个），收敛速度会变得非常慢，且容易陷入局部最优。近期，一些结合了经典优化思想和量子特性的新方法被提出。例如，Kulshrestha等人设计的优化方案，在训练效率上达到了经典优化器的水平，同时在计算时间上更具优势。Weidmann等人提出的方法，也在收敛性上相比参数平移法有了显著改善。

注意事项：在实际项目中，选择优化策略是一个关键的工程决策。我的经验是：对于参数很少（<50）的原型验证或概念证明，可以优先尝试COBYLA，因为它实现简单且不需要梯度。对于中等规模参数（50-200），如果模拟或硬件条件允许进行大量电路评估，参数平移法仍是可靠的选择，但要做好时间预算。当追求更大规模或更高效的训练时，必须开始关注并尝试那些新兴的、更高效的梯度计算或无梯度优化算法，尽管它们可能还不够成熟。

4. 硬件需求：理论与现实的残酷碰撞

再精巧的算法，也需要硬件来承载。QML对当前量子硬件提出了极其严苛的要求，许多在论文中假设的理想条件，在实验室里都难以满足。

4.1 核心硬件瓶颈剖析

相干时间与门保真度：这是NISQ时代的头号敌人。量子态非常脆弱，与环境相互作用会导致退相干，信息在短时间内丢失。同时，量子门操作也不完美，存在误差。一个需要深层次纠缠的QML电路，可能在结果被读出之前，量子信息就已经被噪声淹没。这就要求算法必须使用浅层电路，与避免贫瘠高原的需求形成了直接矛盾。
量子比特连接性与拓扑：并非所有量子比特都能直接相互作用。在超导量子芯片上，量子比特通常以特定拓扑结构（如线形、网格形）排列，只有相邻的比特才能执行双量子比特门（如CNOT）。而QML算法，特别是涉及复杂纠缠的编码和电路，往往需要任意比特对之间的连接。这需要通过交换门来实现远程纠缠，大大增加了电路深度和错误率。
状态制备与测量的精度：如前所述，复杂的数据编码（如振幅编码）需要高保真的态制备。而为了读取结果，我们经常需要超越简单的泡利Z测量，进行更复杂的量子态层析，以获取量子态的完整信息（而不仅仅是某个观测量）。这对测量装置的精度、速度和可扩展性都提出了巨大挑战。

4.2 面向QML的硬件协同设计

被动等待硬件进步是远远不够的。更有效的路径是算法-硬件协同设计：

为硬件设计算法：采用硬件高效的电路结构，尊重芯片的特定连接拓扑。例如，谷歌的Sycamore处理器采用“蜻蜓”拓扑，针对此拓扑设计的算法会比通用算法表现好得多。
利用辅助量子比特：这是一个很有前景的方向。通过引入额外的、专用于辅助操作的量子比特，可以帮助更高效地制备复杂量子态或执行特定操作，从而减轻主计算比特的负担，间接“延长”了它们的有效相干时间。
错误缓解与近似的使用：我们不必追求完全无错的计算。采用错误缓解技术（如零噪声外推、概率错误消除）来从含噪声结果中提取有用信号，或者设计对噪声不敏感的编码和模型，是当前实用的策略。

近期，谷歌量子AI在量子纠错方面取得的突破性进展令人振奋。他们首次演示了逻辑量子比特的性能超过物理量子比特，这标志着我们向建造容错量子计算机迈出了关键一步。虽然距离支撑大规模QML应用还有很长的路，但这无疑为整个领域注入了强心剂，说明硬件瓶颈并非不可逾越。

5. 软件栈与实操：在现有平台上构建未来

理论探讨之外，我们最终要在代码和硬件上实现想法。当前的量子软件生态正在快速发展，为QML研究提供了有力工具。

5.1 主流量子机器学习框架

目前，几个主流的量子计算框架都提供了强大的QML工具包，它们各有侧重：

PennyLane：我个人认为它是目前最适合做QML研究的框架之一。它深度集成了自动微分，可以无缝连接PyTorch、JAX等经典机器学习库，实现真正的量子-经典混合计算。其“设备无关”的编程模型，让同一段代码可以在不同的模拟器或后端硬件上运行，非常便于算法验证和移植。
Qiskit (Qiskit Machine Learning)：IBM主导的生态，社区庞大，教程丰富。它与IBM的量子硬件和模拟器结合紧密，适合学习和访问真实量子设备。
CUDA-Q：NVIDIA推出的平台，最大优势在于其高性能模拟能力。它能够利用GPU集群对数十个量子比特的电路进行高性能模拟，对于需要大规模验证的算法研究至关重要。

5.2 一个简单的QML工作流示例

让我们以在PennyLane中实现一个简单的量子分类器为例，看看一个完整的QML pipeline是如何搭建的。这个例子使用角度编码和一个简单的变分电路。

import pennylane as qml from pennylane import numpy as np import torch import torch.optim as optim # 1. 定义设备（这里使用默认的模拟器） dev = qml.device("default.qubit", wires=4) # 2. 定义量子节点（即我们的变分量子电路） @qml.qnode(dev, interface="torch") def quantum_circuit(inputs, weights): # 数据编码层：角度编码 for i in range(4): qml.RY(inputs[i], wires=i) # 变分层：一个简单的纠缠层+旋转层 # 纠缠层 for i in range(3): qml.CNOT(wires=[i, i+1]) # 旋转层（可训练参数） for i in range(4): qml.RY(weights[i], wires=i) # 测量：返回第一个量子比特在Z方向的期望值作为输出 return qml.expval(qml.PauliZ(0)) # 3. 定义经典神经网络外壳（用于处理量子模型的输出） class HybridModel(torch.nn.Module): def __init__(self): super().__init__() self.quantum_layer = qml.qnn.TorchLayer(quantum_circuit, {"weights": 4}) self.linear = torch.nn.Linear(1, 2) # 假设二分类 def forward(self, x): # x形状: (batch_size, 4) quantum_out = self.quantum_layer(x).unsqueeze(-1) # 形状变为 (batch_size, 1) return self.linear(quantum_out) # 4. 准备数据、初始化模型、定义损失和优化器 model = HybridModel() criterion = torch.nn.CrossEntropyLoss() optimizer = optim.Adam(model.parameters(), lr=0.01) # 假设我们有训练数据 X_train, y_train # ... 数据加载和训练循环 ... # for epoch in range(num_epochs): # optimizer.zero_grad() # outputs = model(X_train) # loss = criterion(outputs, y_train) # loss.backward() # 这里会自动计算量子梯度和经典梯度！ # optimizer.step()

这个简单的例子揭示了几个关键点：1)混合架构是常态，量子电路通常作为特征提取器嵌入经典框架；2)自动微分让梯度计算对用户透明；3) 整个训练流程和经典深度学习非常相似，降低了入门门槛。

5.3 性能优化与多GPU/多QPU扩展

当问题规模变大，我们需要考虑性能。以CUDA-Q为例，它提供了强大的扩展能力：

门融合：将多个连续的单/双量子比特门在编译时合并为一个更复杂的门，减少模拟时的操作开销，能显著提升模拟速度。
多GPU并行：对于大规模量子电路模拟，可以将状态向量分布到多个GPU内存中，并行计算。这对于模拟24个以上量子比特的电路至关重要。
多QPU任务分发：在真正的多芯片量子计算系统中，CUDA-Q支持将一个大任务（如需要多次评估的参数扫描）自动分发到多个量子处理单元上并行执行，充分利用硬件资源。

这些高级功能使得研究者可以在近似真实硬件的规模上测试和优化算法，为未来上真机做好准备。

6. 常见问题与调试实录

在实际操作中，你会遇到各种各样的问题。下面是我总结的一些典型问题及其排查思路：

问题现象	可能原因	排查与解决思路
训练损失完全不下降，梯度接近零	1.贫瘠高原 2. 编码信息丢失 3. 学习率设置不当	1. 检查电路是否过深、参数是否完全随机初始化。尝试使用更浅的电路或问题相关的初始化。 2. 可视化编码后的量子态（通过模拟器），检查数据特征是否成功注入。 3. 尝试不同的学习率，或使用学习率调度器。
模拟结果与理论预期严重不符	1. 量子门顺序或参数化错误 2. 测量方式错误 3. 模拟器噪声模型配置有误	1. 用极简例子（如单个量子比特）验证量子门操作是否正确。 2. 确认测量算符与你想观察的物理量是否对应。 3. 在无噪声模拟器上运行，确认是算法问题还是噪声影响。
在真实硬件上结果不可重复、方差极大	1.硬件噪声和退相干 2. 测量次数（shots）不足 3. 校准漂移	1. 这是NISQ设备的常态。增加测量次数以平均噪声，或采用错误缓解技术。 2. 显著增加shots数（如从1024增加到8192或更多），观察结果是否稳定。 3. 检查硬件校准报告，在设备刚校准后运行关键实验。
量子电路模拟速度极慢	1. 模拟的量子比特数过多 2. 电路深度过深 3. 未使用高性能后端（如GPU）	1. 状态向量模拟复杂度随比特数指数增长。考虑使用张量网络模拟器处理特定结构的电路，或减少比特数。 2. 优化电路，减少冗余门。 3. 将后端切换到支持GPU的模拟器（如`lightning.gpu`）。
参数平移法训练时间无法忍受	参数数量（M）过大	1. 考虑使用无梯度优化器（如COBYLA）进行初步搜索。 2. 研究并尝试新的高效梯度算法（如量子自然梯度、前述的Abbas方法）。 3. 减少可训练参数，或采用参数共享、低秩近似等技巧。

一个具体的调试案例：我曾在一个分子能量预测的任务中，使用振幅编码的变分量子算法。在模拟器上一切良好，但上到真实硬件后，预测结果完全随机。通过逐步排查，发现问题是测量次数不足和特定双量子比特门错误率过高。解决方案是：首先将shots从1024增加到10000，使结果均值稳定；其次，通过硬件提供的门错误率地图，避开了错误率最高的那个CNOT门，重新编译了电路。调整后，虽然精度仍远不如模拟器，但已经能观察到与理论趋势一致的相关性。这个经历让我深刻体会到，在NISQ时代，对硬件的了解和“妥协”的艺术，与算法设计本身同等重要。

量子机器学习正站在一个从理论演示走向实用验证的关键节点。硬件在缓慢但坚定地进步，算法在不断地适应和革新。最大的体会是，在这个领域取得成功，不能只做一个纯理论家或纯工程师，而必须是一个“全栈”思考者：理解量子力学的底层原理，洞悉机器学习模型的设计精髓，同时深刻尊重当前硬件的一切限制，并在这些约束条件下寻找最优解。这条路充满挑战，但每一次在噪声中看到信号，每一次算法的小幅改进，都让我们离那个能真正解决实际问题的量子智能未来更近一步。

查看全文

http://www.jsqmd.com/news/878763/