当前位置：首页 > news >正文

量子核方法：原理、实现与在NISQ时代的机器学习应用

news 2026/7/12 6:26:20

1. 量子核方法：从经典到量子的范式跃迁

核方法是机器学习工具箱里的一把“瑞士军刀”，尤其擅长处理那些在原始数据空间里纠缠不清的非线性问题。它的核心思想很巧妙：与其在低维空间里费劲地画一条复杂的曲线来分割数据点，不如把数据点“扔”到一个高维甚至无限维的空间里去。在那个高维空间里，原本复杂的关系可能会变得线性可分，就像把一团乱麻的毛线球解开、拉直一样。这个“扔”的过程，就是特征映射。而核函数，则是一种聪明的“作弊”手段，它允许我们直接计算高维空间中的内积（即相似度），而无需真正知道那个高维空间长什么样，也无需进行昂贵的高维计算。

那么，当这项经典技术遇上量子计算，会碰撞出什么火花？这就是量子核方法要回答的问题。简单来说，它用量子电路来充当那个神秘的特征映射器，将经典数据编码为量子态，然后通过量子力学中的内积运算（比如交换测试）来定义核函数。这不仅仅是换了个“硬件平台”，其背后的潜力在于，量子系统天然存在于一个指数级庞大的希尔伯特空间中。一个仅由几十个量子比特构成的系统，其状态空间维度就能轻松超过我们已知宇宙中的原子总数。理论上，量子特征映射可以探索一些经典计算机极难甚至无法高效模拟的复杂特征空间，这为机器学习打开了一扇新的大门。

对于从事量子算法或机器学习交叉领域的研究者和工程师而言，理解量子核方法至关重要。它不仅是近期含噪声中等规模量子设备上最具前景的机器学习应用之一，更是我们探索“量子优势”在实用机器学习任务中能否兑现的关键试验场。本文将从原理出发，拆解量子核的构造细节，对比其与经典核的异同，并深入探讨其在当前量子硬件上的实现路径与潜在优势。

2. 核心原理：量子特征映射与量子核的构造

要理解量子核方法，必须牢牢抓住两个核心概念：量子特征映射和由此导出的量子核函数。这是整个体系的基石。

2.1 量子特征映射：将数据注入量子态

在经典核方法中，特征映射 $\phi: \mathcal{X} \rightarrow \mathcal{F}$ 将数据点 $\mathbf{x} \in \mathbb{R}^d$ 映射到一个高维特征空间 $\mathcal{F}$ 中的向量 $\phi(\mathbf{x})$。在量子版本中，这个特征空间变成了量子态的希尔伯特空间。

定义：给定一个初始化为 $|\psi\rangle$ 的 $N$ 量子比特系统，对于经典数据 $\mathbf{x} \in \mathcal{X} \subset \mathbb{R}^d$，量子特征映射 $\phi$ 定义为： $$ \phi(\mathbf{x}) = |\phi(\mathbf{x})\rangle \langle \phi(\mathbf{x})| = \rho(\mathbf{x}) $$ 其中，$|\phi(\mathbf{x})\rangle = U(\mathbf{x}) |\psi\rangle$。这里，$U(\mathbf{x})$ 是一个依赖于输入数据 $\mathbf{x}$ 的量子电路。映射的目标空间 $\mathcal{F}$ 是 $2^N \times 2^N$ 的复值矩阵空间，配备希尔伯特-施密特内积 $\langle \rho, \sigma \rangle = \text{Tr}(\rho\sigma)$。

关键解读：

从向量到密度矩阵：注意，量子特征映射的输出是一个密度矩阵 $\rho(\mathbf{x})$，而不仅仅是态矢量 $|\phi(\mathbf{x})\rangle$。这提供了更一般的表述，既能描述纯态也能描述混合态，但通常我们从一个简单的纯态（如全零态 $|0\rangle^{\otimes N}$）开始。
编码电路 $U(\mathbf{x})$：这是设计的核心。$U(\mathbf{x})$ 决定了数据如何影响量子态。通常，数据 $\mathbf{x}$ 的参数被编码为量子门（如旋转门）的角度。例如，对于单个数据点 $x$，我们可以应用一个绕X轴的旋转门：$R_X(x) = e^{-ix\sigma_x/2}$，使得 $|\phi(x)\rangle = \cos(x/2)|0\rangle - i\sin(x/2)|1\rangle$。
指数级优势的源头：一个 $N$ 量子比特系统的态空间是 $2^N$ 维的复空间。这意味着，通过一个相对浅层的量子电路 $U(\mathbf{x})$，我们就能将数据映射到一个维度随量子比特数指数增长的空间中。尝试在经典计算机上显式地存储或操作这样一个 $2^N$ 维的向量，即使对于中等规模的 $N$（比如50），也是完全不现实的。

2.2 量子核函数：定义与计算

有了量子特征映射，量子核函数的定义便水到渠成。它直接类比经典核函数，定义为特征映射的内积。

定义：设 $\phi$ 是定义在域 $\mathcal{X}$ 上的量子特征映射。对于数据点 $\mathbf{x}, \mathbf{x}’ \in \mathcal{X}$，量子核 $k_Q$ 是两个量子特征映射 $\rho(\mathbf{x})$ 和 $\rho(\mathbf{x}’)$ 的内积： $$ k_Q(\mathbf{x}, \mathbf{x}’) = \text{Tr}(\rho(\mathbf{x})\rho(\mathbf{x}’)) = |\langle \phi(\mathbf{x}) | \phi(\mathbf{x}’) \rangle|^2 $$

为什么这是个有效的核？核函数必须满足正定性。对于量子核，我们可以证明其满足 Mercer 条件。考虑复值内核 $\hat{k}Q(\mathbf{x}, \mathbf{x}’) = \langle \phi(\mathbf{x}) | \phi(\mathbf{x}’) \rangle$。对于任意系数 $c_i \in \mathbb{C}$，有： $$ \sum{i,j} c_i c_j^* \hat{k}_Q(\mathbf{x}^{(i)}, \mathbf{x}^{(j)}) = \left| \sum_i c_i |\phi(\mathbf{x}^{(i)})\rangle \right|^2 \geq 0 $$ 由于两个核函数的乘积仍是核函数，而 $k_Q = \hat{k}_Q \cdot \hat{k}_Q^*$，因此量子核 $k_Q$ 也是一个有效的正定核。

如何在量子设备上计算？这是量子核方法实用化的关键。我们不需要显式地知道 $|\phi(\mathbf{x})\rangle$ 这个 $2^N$ 维向量的具体形式，只需要通过量子电路来估计内积 $|\langle \phi(\mathbf{x}) | \phi(\mathbf{x}’) \rangle|^2$。主要有两种电路方案：

Loschmidt Echo 测试：制备态 $|\phi(\mathbf{x})\rangle$，然后应用 $U(\mathbf{x}’)^\dagger$（即 $U(\mathbf{x}’)$ 的逆电路），最后测量所有量子比特是否都回到初始状态 $|0\rangle^{\otimes N}$。回到 $|0\rangle$ 态的概率即为 $|\langle \phi(\mathbf{x}’) | \phi(\mathbf{x})\rangle|^2$。
交换测试：这是更常用的方法。需要一个额外的辅助量子比特。将辅助比特制备为 $|+\rangle = (|0\rangle+|1\rangle)/\sqrt{2}$，然后将两个数据对应的量子态 $|\phi(\mathbf{x})\rangle$ 和 $|\phi(\mathbf{x}’)\rangle$ 作为两个寄存器。对辅助比特和两个寄存器执行受控交换门，最后测量辅助比特。测量结果为 $0$ 的概率为 $(1 + |\langle \phi(\mathbf{x}) | \phi(\mathbf{x}’)\rangle|^2)/2$，由此可推算出核函数值。

实操心得：在近期含噪声量子设备上，交换测试通常比 Loschmidt Echo 测试更鲁棒。因为 Loschmidt Echo 要求精确的逆电路，而在噪声下，门的误差会累积，导致保真度下降。交换测试虽然需要额外的量子比特和更复杂的门操作，但对逆电路的精度要求相对较低。在实现时，需要根据具体硬件平台的噪声特性和连通性来权衡选择。

2.3 量子核的通用构造流程

基于以上原理，我们可以总结出构建一个量子核的三个标准步骤：

量子特征映射构造：设计数据依赖的量子电路 $U(\mathbf{x})$。这包括选择编码方式（如角度编码、振幅编码等）、确定量子门的类型和排列（即电路架构 Ansatz），以及选择初始态 $|\psi\rangle$（通常为 $|0\rangle^{\otimes N}$）。
核函数评估：对于每一对数据点 $(\mathbf{x}^{(i)}, \mathbf{x}^{(j)})$，在量子计算机上执行选定的测试电路（如交换测试），通过多次测量来估计��率，从而计算出核值 $k_Q(\mathbf{x}^{(i)}, \mathbf{x}^{(j)}) = |\langle \phi(\mathbf{x}^{(i)}) | \phi(\mathbf{x}^{(j)})\rangle|^2$。
后处理与模型训练：对所有训练数据对进行计算，得到一个经典的、实对称的核矩阵 $K_Q \in \mathbb{R}^{n \times n}$。将这个核矩阵输入到经典的核机器学习模型（如支持向量机）中进行训练和预测。对于新数据点 $\mathbf{x}^{new}$，需要计算它与所有训练数据点的核值向量 $\mathbf{k}_Q(\mathbf{x}^{new}) = [k_Q(\mathbf{x}^{(1)}, \mathbf{x}^{new}), …, k_Q(\mathbf{x}^{(n)}, \mathbf{x}^{new})]^T$，然后使用训练好的模型参数进行预测。

这个流程清晰地划分了量子与经典的职责：量子部分负责高效生成高维特征空间的内积（核矩阵），而经典的优化和推理部分则利用这个核矩阵进行。这种混合架构非常适合当前量子计算的发展阶段。

3. 编码策略与具体量子核实例

不同的数据编码策略 $U(\mathbf{x})$ 会产生截然不同的量子核。理解这些实例有助于我们在具体任务中选择合适的编码方式。下表概述了三种典型编码策略及其产生的量子核：

编码策略	所需量子比特数	特征空间维度	量子核 $k(\mathbf{x}, \mathbf{x}’)$	特点与评价
基态编码	$d$	$2^d$	$\delta_{\mathbf{x},\mathbf{x}’}$	编码严格，核函数是严格的相等性检验，相似性度量过于苛刻，通常不是机器学习的最佳选择。
振幅编码	$\lceil \log_2(d) \rceil$	$d$	$	\mathbf{x}^\dagger \mathbf{x}’
角度编码	$d$	$2^d$	$\prod_{k=1}^d \| \cos(x_k - x’_k) \|^2$	最常用。显式引入非线性，编码方式与近期硬件兼容性好，是探索量子优势的实用起点。

下面我们重点剖析最实用的角度编码及其产生的量子核。

3.1 角度编码量子核的深入解析

角度编码将经典数据的每一个分量 $x_k$ 编码为作用于特定量子比特上的旋转门角度。一个最简单的单比特例子是：$|\phi(x)\rangle = R_X(x)|0\rangle = \cos(x/2)|0\rangle - i\sin(x/2)|1\rangle$。对应的量子核为： $$ k(x, x’) = |\langle \phi(x’) | \phi(x) \rangle|^2 = \cos^2\left(\frac{x-x’}{2}\right) $$ 这是一个平移不变的余弦平方核。

对于 $d$ 维数据 $\mathbf{x} = (x_1, …, x_d)$，如果对每个量子比特独立地使用单比特旋转（且不使用纠缠门），即 $|\phi(\mathbf{x})\rangle = \bigotimes_{k=1}^d R_X(x_k) |0\rangle^{\otimes d}$，那么量子核是各分量核的乘积： $$ k(\mathbf{x}, \mathbf{x}’) = \prod_{k=1}^d \cos^2(x_k - x’_k) $$ 这种可分离的核函数是经典可高效模拟的，因为它没有利用量子纠缠。

3.2 引入纠缠：通向经典难解性

量子计算威力的一个关键来源是纠缠。为了获得可能超越经典能力的量子核，我们必须在编码电路中引入纠缠门。考虑更一般的角度编码形式： $$ |\phi(\mathbf{x})\rangle = W_{d+1} \left[ \prod_{k=d}^{1} \left( e^{-i x_k G_k} W_k \right) \right] |0\rangle^{\otimes d} $$ 其中，$G_k$ 是生成哈密顿量（通常是泡利算符的张量积），$W_k$ 是任意的固定幺正演化层，通常由不依赖于数据的纠缠门（如 CNOT、CZ）和单比特门构成。

这种结构产生了数据依赖的纠缠。最终的量子态 $|\phi(\mathbf{x})\rangle$ 是高度纠缠的，其分量是数据 $\mathbf{x}$ 的复杂周期函数（傅里叶级数）的叠加。此时，量子核 $k_Q(\mathbf{x}, \mathbf{x}’)$ 可以写成傅里叶级数的形式： $$ k_Q(\mathbf{x}, \mathbf{x}’) = \sum_{\mathbf{s}, \mathbf{t} \in \Omega} e^{i\mathbf{s}\cdot\mathbf{x}} e^{i\mathbf{t}\cdot\mathbf{x}’} c_{\mathbf{s}\mathbf{t}} $$ 其中，频率集 $\Omega$ 由生成哈密顿量 $G_k$ 的特征值之差决定，系数 $c_{\mathbf{s}\mathbf{t}}$ 由中间层 $W_k$ 决定。

这里的核心在于：通过精心设计 $G_k$ 和 $W_k$，我们可以使频率集 $\Omega$ 变得非常庞大和复杂。评估这样一个核函数需要计算指数多个频率项的叠加，这对于经典计算机来说，随着量子比特数 $d$ 的增加，可能变得难以处理。而量子计算机可以通过运行 $U(\mathbf{x})$ 和 $U(\mathbf{x}’)^\dagger$ 等电路，并执行交换测试，以多项式时间（相对于电路深度）来估计这个内积。这构成了量子核可能具有“计算优势”的理论基础：量子设备可以高效评估一个对经典计算机来说计算成本极高的核函数。

注意事项：并非所有复杂的量子核都有用。一个核函数在计算上对经典困难，并不自动意味着它在机器学习任务上能带来更好的性能。它必须同时能捕捉数据中与标签相关的、有意义的模式。设计一个同时满足“经典难算”和“学习有效”的量子特征映射，是当前研究的核心挑战之一。

4. 量子与经典核机器的对比分析

为了更清晰地定位量子核方法，我们将其与经典核方法进行系统性对比。两者的宏观框架高度一致，都包含输入、特征映射、核矩阵和计算过程四个部分，但具体实现有本质区别。

4.1 特征映射的本质差异

经典特征映射：$\phi(\mathbf{x}) \in \mathbb{R}^D$。将数据映射到一个有限维（通常是高维）的实值向量空间。维度 $D$ 可以很大，但总是有限的，且向量的每个分量都是实数。
量子特征映射：$|\phi(\mathbf{x})\rangle \in \mathbb{C}^{2^N}$。将数据映射到一个指数维（$2^N$）的复值希尔伯特空间中的量子态。即使对于中等数量的量子比特（如N=20），$2^N$ 也已超过百万，这个空间在经典上是难以显式表达的。

关键区别：量子特征映射的“指数维度”是潜在的、隐含的。我们并不直接操作这个 $2^N$ 维向量，而是通过操作 $N$ 个物理量子比特的电路来间接利用这个高维空间。这是一种“隐式”的高维映射。

4.2 核函数计算的路径分歧

经典核计算：通常需要显式或隐式地构造特征向量，然后计算其内积。对于复杂的非线性映射（如高斯核的无限维映射），计算内积 $k(\mathbf{x}, \mathbf{x}’) = \exp(-\gamma |\mathbf{x}-\mathbf{x}’|^2)$ 本身是高效的，但对应的特征空间是隐式的。
量子核计算：完全不需要知道 $|\phi(\mathbf{x})\rangle$ 的具体形式。核值的计算通过运行量子电路（$U(\mathbf{x})$ 和 $U(\mathbf{x}’)^\dagger$）并执行测量（如交换测试）来完成。计算复杂度取决于量子电路的深度和宽度，而非特征空间的显式维度。

4.3 效率的重新定义

在讨论量子优势时，必须明确“效率”的语境：

经典效率：由执行特征映射和核计算的数字逻辑电路的深度决定。如果一个函数可以在经典计算机上以输入规模的多项式时间计算，则它是经典高效的。
量子效率：由在量子计算机上实现相同任务所需的量子电路深度决定。如果一个函数可以在量子计算机上以输入规模的多��式时间计算，则它是量子高效的。

量子核方法的潜在优势在于：可能存在一些量子特征映射 $U(\mathbf{x})$，使得对应的量子核 $k_Q$ 在量子计算机上可以量子高效地评估，但任何经典的模拟算法都无法在多项式时间内完成对其的评��。如果这样的量子核恰好对某个机器学习任务是有用的，那么我们就实现了量子计算在机器学习上的实际优势。

5. 理论基石：表达能力与泛化能力

任何机器学习模型都需要从理论和实践两个层面进行审视。对于量子核机器，我们最关心两个理论问题：1）它的表达能力有多强？能表示多复杂的函数？2）它的泛化能力如何？从有限数据中学到的模型能否很好地预测新数据？

5.1 表达能力：量子核的近似普适性

一个令人振奋的理论结果是：任何经典的核函数都可以用量子核以任意精度近似。定理 3.13 从数学上保证了这一点。其核心思想结合了 Mercer 定理和量子计算的通用性：

Mercer 定理保证，任何核函数 $k$ 都存在一个有限维的特征映射 $\Phi_m$ 来近似它。
通过一种称为 C2QE 的算法，可以将这个有限维的实向量 $\Phi_m(\mathbf{x})$ 编码到一个量子态 $\rho_{\Phi_m}(\mathbf{x})$ 中，所需量子比特数 $N = \lceil \log_4(m+1) \rceil$。
两个这样的量子态的希尔伯特-施密特内积，与原始向量的欧几里得内积存在一个简单的线性关系：$\langle \Phi_m(\mathbf{x}), \Phi_m(\mathbf{x}’) \rangle = 2^N \text{Tr}(\rho_{\Phi_m}(\mathbf{x})\rho_{\Phi_m}(\mathbf{x}’)) - 1$。
因此，我们可以通过量子态的内积来近似经典核函数的内积。

这个定理的意义与局限：

意义：它证明了量子核在理论上是“万能”的，其表达能力足以覆盖所有经典的核函数。这为量子核作为通用机器学习工具的潜力提供了理论背书。
局限：定理是存在性证明，而非构造性证明。它没有告诉我们如何找到那个高效的量子电路 $U(\mathbf{x})$ 来实现对特定核的近似。所需的量子比特数 $N$ 可能随着近似精度 $\epsilon$ 的提高或核函数复杂度的增加而急剧增长（甚至指数增长），从而导致实际不可行。因此，定理证明了可能性，但实用化的关键在于找到那些既能被量子电路高效实现，又能对学习任务有效的特定量子核。

5.2 泛化能力：量子预测优势的几何判据

泛化误差衡量的是模型在未见数据上的表现。对于核方法，在正则化参数 $\lambda \to 0$ 的简化情况下，期望预测误差的上界可以近似为： $$ \mathbb{E}[\epsilon] \leq O\left( \sqrt{\frac{\mathbf{y}^T K^{-1} \mathbf{y}}{n}} + \sqrt{\frac{\log(1/\delta)}{n}} \right) $$ 其中 $\mathbf{y}$ 是标签向量，$K$ 是核矩阵，$n$ 是样本数。

这个上界揭示了一个关键量：模型复杂度$s_K(\mathbf{y}) = \mathbf{y}^T K^{-1} \mathbf{y}$。它等于最优模型参数 $\mathbf{w}^$ 的范数平方 $|\mathbf{w}^|^2$。$s_K(\mathbf{y})$ 越小，意味着模型对数据的拟合“越平滑”、“越简单”，通常泛化能力越好。直观上，它衡量了核函数所定义的相似性 $K_{ij}=k(\mathbf{x}^{(i)}, \mathbf{x}^{(j)})$ 与标签相似性 $y^{(i)}y^{(j)}$ 之间的匹配程度。

基于此，Huang 等人 (2021) 提出了判断量子核是否可能具有预测优势的框架。对于一个给定的数据集，假设我们有一个量子核 $K_Q$ 和一个经典的核 $K_C$。量子核要展现出优势，需要满足两个条件：

计算优势：$K_Q$ 在经典上是难以计算的（否则直接用经典方法即可）。
泛化优势：对于该数据集，量子核导出的模型复杂度应小于任何经典高效核的模型复杂度，即 $s_Q(\mathbf{y}) < s_C(\mathbf{y})$。

为了量化这种优势的“潜力”，他们定义了一个非对称几何差异的度量： $$ g_{CQ} = g(K_C || K_Q) = | \sqrt{K_Q} (K_C^{-1}) \sqrt{K_Q} |{\infty} $$ 其中 $|\cdot|{\infty}$ 是谱范数，并假设 $\text{Tr}(K_Q)=\text{Tr}(K_C)=n$。

几何差异 $g_{CQ}$ 的解读：

它独立于具体的标签 $\mathbf{y}$，只与两个核矩阵本身的性质有关。
如果 $g_{CQ} \propto \sqrt{n}$ 很大，则表明存在一个标签向量 $\mathbf{y}$，使得 $s_C(\mathbf{y}) \approx g_{CQ}^2 \cdot s_Q(\mathbf{y}) \gg s_Q(\mathbf{y})$。这意味着对于这个构造出来的“对抗性”数据集，量子模型的泛化误差上界将远小于经典模型，从而展现出预测优势。
如果 $g_{CQ} \ll \sqrt{n}$，则对于大多数数据集，经典模型和量子模型的性能将相近或经典模型更优。

因此，评估量子核潜力的流程可以概括为：首先计算 $g_{CQ}$，如果它很大，则说明存在量子优势的潜力；然后结合具体数据的标签，计算 $s_Q$ 和 $s_C$。如果同时满足 $s_Q \ll n$ 且 $s_C \propto n$，则量子核很可能在该任务上实现更好的预测性能。

实操心得：这个理论框架为量子核的研究提供了非常宝贵的指导。在实践中，我们不应盲目追求复杂的、深度纠缠的量子电路。相反，我们应该针对具体数据集，同时训练和评估多个不同架构（深度、纠缠方式）的量子核，并计算它们与强大经典核（如高斯核）之间的几何差异 $g_{CQ}$。选择那个在保持 $s_Q$ 较小的同时，又能与经典核产生较大 $g_{CQ}$ 的量子特征映射，更有可能在真实任务中观察到量子优势的迹象。这要求我们将量子核的设计从“艺术”转向“工程”，进行系统的架构搜索和评估。

6. 近期量子设备上的实现挑战与策略

将量子核方法部署到当前的含噪声中等规模量子设备上，面临着独特的挑战，也催生了一系列适应性的策略。

6.1 主要挑战：噪声、串扰与有限资源

门错误与退相干：量子门操作不完美，量子态会随时间丢失相干性（退相干）。这会导致制备的量子态 $|\phi(\mathbf{x})\rangle$ 不纯，以及交换测试等测量结果不准确，使得估计的核矩阵 $K_Q$ 存在偏差和噪声。
测量误差：读取量子比特状态时会产生错误，误将 $|0\rangle$ 读为 $|1\rangle$，反之亦然。这直接污染了核值的估计。
串扰：当对芯片上一个量子比特进行操作时，可能会干扰其邻近的量子比特，导致意外的错误。
有限的量子比特数与连通性：当前设备可能只有几十到几百个量子比特，且并非所有量子比特对都能直接进行双量子比特门操作。这限制了可编码的数据维度和可实现的电路深度。
采样开销：核值 $k_Q(\mathbf{x}, \mathbf{x}’)$ 需要通过多次重复电路运行和测量，以统计频率来估计概率。对于 $n$ 个训练样本，需要估算 $O(n^2)$ 个核矩阵元，每个元都需要成百上千次采样才能达到可接受的精度，总采样开销巨大。

6.2 应对策略与实用技巧

面对这些挑战，社区发展出了一些有效的应对策略：

1. 电路设计与编译优化：

浅层电路优先：在保证表达力的前提下，尽量使用深度较浅的电路。角度编码通常比振幅编码需要更浅的电路。可以尝试用参数化量子电路，其中部分参数由数据 $\mathbf{x}$ 驱动，另一部分作为可训练参数，共同优化。
适应硬件拓扑：设计 $U(\mathbf{x})$ 时，使需要纠缠的门操作尽可能落在硬件原生支持的量子比特连接上，避免昂贵的 SWAP 操作来绕行。
利用变分量子电路：不直接使用固定的编码电路，而是使用一个由可调参数 $\theta$ 和数据 $\mathbf{x}$ 共同决定的电路 $U(\mathbf{x}; \theta)$。参数 $\theta$ 可以与经典模型参数一起训练，以找到对噪声更鲁棒、对任务更有效的特征映射。

2. 错误缓解技术：

零噪声外推：在不同噪声水平下（通过调整门延迟或插入虚拟门等方式实现）运行��路，测量核值，然后外推至零噪声情况下的估计值。
测量错误缓解：预先标定测量混淆矩阵，然后通过解线性方程来校正原始的测量统计结果。
概率错误消除：这是一种更高级的技术，通过运行一系列精心构造的电路（其中包含补偿性的错误门），将噪声通道的影响从结果中“减除”。

3. 算法与软件层面的优化：

核矩阵的近似与压缩：对于大规模数据集，计算完整的 $n \times n$ 核矩阵不可行。可以采用随机傅里叶特征等方法对量子核进行近似，或者使用 Nyström 方法选择数据子集来构造低秩近似核矩阵。
利用经典-量子混合框架：像 PennyLane、Qiskit Machine Learning 这样的框架，已经提供了将量子核评估无缝集成到经典机器学习流程（如 scikit-learn）中的工具。它们自动处理电路执行、采样、错误缓解等底层细节，让研究者更专注于模型设计。

4. 问题与模型选择：

从小规模、高价值问题开始：不要一开始就试图用量子核处理 ImageNet 级别的图像分类。应从规模较小但经典方法已遇到瓶颈的问题入手，例如某些特定类型的量子化学模拟中的分子性质预测、复杂金融时间序列中的异常模式检测等。这些问题的数据本身可能具有天然的量子结构或高复杂性。
专注于证明“概念验证”：在近期设备上，目标不一定是实现超越所有经典方法的绝对精度，而是验证量子核模型能否学习到有意义的模式，并展示其随着量子资源增加而性能提升的 scaling 趋势。

6.3 一个简单的实现示例

假设我们使用 PennyLane 库，实现一个基于角度编码和强纠缠层的量子核，并将其用于一个简单的二分类任务。

import pennylane as qml from pennylane import numpy as np import sklearn.svm as svm from sklearn.datasets import make_circles from sklearn.model_selection import train_test_split # 1. 定义量子特征映射电路 dev = qml.device(“default.qubit”, wires=4, shots=1000) # 使用4个量子比特，每次采样1000次 @qml.qnode(dev) def feature_map(x): “””角度编码 + 纠缠层””” # 角度编码：将4维数据x的每个分量编码到不同量子比特的Y旋转门 for i in range(4): qml.RY(x[i], wires=i) # 添加纠缠层，以增加表达能力 for i in range(4): qml.CZ(wires=[i, (i+1)%4]) # 第二层旋转，可引入更多非线性 for i in range(4): qml.RY(x[i]**2, wires=i) # 使用非线性变换 return qml.state() # 返回量子态 # 2. 定义量子核函数（基于交换测试） @qml.qnode(dev) def quantum_kernel(x1, x2): “””使用交换测试计算 |<phi(x1)|phi(x2)>|^2””” # 准备辅助比特 qml.Hadamard(wires=0) # 在控制下，准备|phi(x1)>和|phi(x2)>到寄存器1和2 qml.ctrl(feature_map, control=0)(x1, register_wires=range(1, 5)) qml.ctrl(feature_map, control=0)(x2, register_wires=range(5, 9)) # 受控交换门（此处简化表示，实际需分解为受控CNOT） # … 交换寄存器1和2 … qml.Hadamard(wires=0) return qml.probs(wires=0) # 返回辅助比特在 |0> 和 |1> 的概率 def kernel_value(x1, x2): probs = quantum_kernel(x1, x2) # 根据交换测试公式，|<phi1|phi2>|^2 = 2*p(0) - 1 return 2 * probs[0] - 1 # 3. 生成数据 X, y = make_circles(n_samples=100, noise=0.1, factor=0.5, random_state=42) y = (y * 2) - 1 # 将标签从{0,1}转换为{-1,1}，便于SVM X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) # 4. 计算量子核矩阵（这是一个简化的示意，实际需考虑采样噪声和错误缓解） n_train = len(X_train) K_train = np.zeros((n_train, n_train)) for i in range(n_train): for j in range(i, n_train): # 利用对称性 val = kernel_value(X_train[i], X_train[j]) K_train[i, j] = val K_train[j, i] = val # 5. 使用经典SVM进行训练 clf = svm.SVC(kernel=’precomputed’) clf.fit(K_train, y_train) # 6. 预测（需要计算测试样本与所有训练样本的核向量） n_test = len(X_test) K_test = np.zeros((n_test, n_train)) for i in range(n_test): for j in range(n_train): K_test[i, j] = kernel_value(X_test[i], X_train[j]) y_pred = clf.predict(K_test) accuracy = np.mean(y_pred == y_test) print(f”Test accuracy with quantum kernel: {accuracy:.4f}”)

重要提示：以上代码是高度简化的概念演示。在实际硬件或模拟器上运行需要注意：1) 交换测试电路需要正确分解为原生门；2)kernel_value的估计会有采样方差，需要足够多的shots；3) 对于真实数据，需要对输入特征x进行适当的缩放和预处理；4) 必须考虑加入错误缓解技术。此外，直接计算 $O(n^2)$ 的核矩阵对于大数据集不可行，需要考虑近似方法。

量子核方法架起了经典机器学习与量子计算之间一座坚实而富有潜力的桥梁。它将核方法优雅的数学框架与量子系统强大的信息处理能力相结合。当前的理论研究已经揭示了其表达能力的普适性和实现预测优势的潜在路径，而实验探索则正致力于在嘈杂的量子硬件上将其付诸实践。

对于实践者而言，成功的关键在于清醒地认识到“量子优势”不会自动降临。它需要精心设计既能在近期设备上可靠执行，又能捕捉数据关键模式的量子特征映射；需要系统地利用错误缓解技术来对抗噪声；更需要针对真正能从高维量子特征中受益的问题进行探索。这条路充满挑战，但每一步进展都让我们更接近量子机器学习实用化的未来。

查看全文

http://www.jsqmd.com/news/878695/