当前位置：首页 > news >正文

量子机器学习优化：无陷阱损失函数景观的理论与实践

news 2026/7/15 13:31:23

1. 项目概述与核心价值

在量子计算领域，无论是进行量子模拟、量子态制备还是实现量子优化算法，我们最终都需要通过调整一组可控参数，让一个参数化的量子电路（或称量子神经网络）的输出逼近某个目标。这个过程，本质上是一个优化问题。我们定义一个损失函数来衡量当前参数化量子电路与目标之间的差距，然后通过梯度下降等经典优化算法来寻找使损失最小的参数。然而，这个优化过程远非一帆风顺。一个核心的挑战在于，量子系统的损失函数“景观”往往异常复杂，充满了无数的局部极小值（陷阱），优化器很容易被困在其中，无法找到全局最优解。这就好比在一个多峰多谷的崎岖山地中寻找最低点，如果只依赖局部信息（梯度），很可能掉进一个深坑就再也爬不出来了。

“无陷阱损失函数景观”这个概念，正是为了解决这个痛点。它描述了一种理想的优化地形：要么只有一个全局最小值（盆地），要么所有的临界点（梯度为零的点）都不是具有欺骗性的局部极小值，而是鞍点。在鞍点附近，总存在至少一个方向是下坡路，优化算法可以借此“逃逸”，继续向更优的区域前进。那么，一个自然的问题是：在什么条件下，量子机器学习任务的损失函数景观会是“无陷阱”的？

本文要探讨的，正是这个问题的理论核心。我们将深入分析一种基于Frobenius范数的损失函数，并引入两个关键假设：局部满射性和过参数化。局部满射性保证了参数空间的微小变化能映射到酉矩阵空间足够丰富的方向上；过参数化则意味着我们使用的可调参数数量远超所需。在这两个假设下，我们将严格证明，损失函数的临界点具有非常规整的结构，并且除了全局最小值和最大值外，其余临界点都是鞍点，从而构成了一个无陷阱的景观。这对于设计鲁棒的量子变分算法具有根本性的指导意义——它告诉我们，通过精心设计参数化方式和确保足够的参数自由度，我们有可能从根本上规避局部极小值问题。

2. 核心原理：损失函数景观与临界点分析

2.1 损失函数的定义与梯度

我们考虑一个N量子比特系统。目标是学习一个目标酉矩阵 $W$（例如，一个理想的量子门或时间演化算子）。我们通过一个参数化的量子电路 $U(\theta)$ 来近似它，其中 $\theta$ 代表所有可调参数（如量子门的旋转角度、脉冲的幅度等）。

一个直观且常用的损失函数是Frobenius范数距离： $$ L_E = ||U(\theta) - W||_F^2 $$ 其中 Frobenius 范数定义为 $||A||_F^2 = \text{Tr}(A^\dagger A)$。展开后，我们可以得到： $$ L_E = \text{Tr}((U-W)^\dagger (U-W)) = \text{Tr}(U^\dagger U) + \text{Tr}(W^\dagger W) - \text{Tr}(W^\dagger U) - \text{Tr}(U^\dagger W) $$ 由于 $U$ 和 $W$ 都是酉矩阵，满足 $U^\dagger U = W^\dagger W = I$（$I$ 是 $2^N \times 2^N$ 的单位矩阵），因此 $\text{Tr}(U^\dagger U) = \text{Tr}(W^\dagger W) = 2^N$。于是损失函数简化为： $$ L_E = 2 \cdot 2^N - \text{Tr}(W^\dagger U + U^\dagger W) $$ 这个形式清晰地表明，最小化 $L_E$ 等价于最大化 $\text{Re}[\text{Tr}(W^\dagger U)]$，即让 $U$ 和 $W$ 的“重叠”尽可能大。

为了进行优化，我们需要计算损失函数关于参数 $\theta$ 的梯度。假设参数化是通过时间演化实现的，即 $U(\theta) = \mathcal{T} \exp\left(-i \int_0^T H(t; \theta) dt\right)$，其中 $H(t; \theta)$ 是含参数的哈密顿量。利用量子控制理论中的标准方法，可以得到梯度分量： $$ \frac{\partial L_E}{\partial \theta_{\alpha}^{nk}} = -i \text{Tr}\left( (U^\dagger W - W^\dagger U) \mu_{\alpha}^{nk} \right) $$ 这里 $\mu_{\alpha}^{nk}$ 是一个与参数 $\theta_{\alpha}^{nk}$ 相关的厄米算符，具体形式由系统的控制哈密顿量决定。关键点在于：梯度的表达式直接关联了误差算符 $(U^\dagger W - W^\dagger U)$ 和由参数变化生成的算符 $\mu_{\alpha}^{nk}$。

2.2 局部满射性假设与临界点结构

局部满射性是一个强有力的假设。它要求，在参数空间的任意一点，由所有梯度分量对应的算符 ${ \mu_{\alpha}^{nk} }$ 所张成的线性空间，能够覆盖整个 $su(2^N)$ 李代数（即所有无迹厄米算符的空间）。直观上，这意味着通过微调任何参数，我们都能让量子电路 $U(\theta)$ 在酉矩阵群中向任意方向移动。

在这个假设下，梯度为零（即达到临界点）的条件变得非常严格。从梯度公式看，要使所有 $\frac{\partial L_E}{\partial \theta_{\alpha}^{nk}} = 0$，由于 $\mu_{\alpha}^{nk}$ 张成了整个空间，唯一的可能就是误差算符 $(U^\dagger W - W^\dagger U)$ 本身为零。这推导出临界点的必要条件： $$ U^\dagger W = W^\dagger U $$ 定义 $\chi = U^\dagger W$。上述条件意味着 $\chi = \chi^\dagger$，即 $\chi$ 是一个厄米矩阵。同时，由于 $U$ 和 $W$ 都是酉矩阵，$\chi$ 也是酉矩阵。一个既是厄米又是酉的矩阵，其本征值只能是 $\pm 1$。

因此，临界点对应于 $U^\dagger W$ 是一个本征值仅为 $+1$ 或 $-1$ 的矩阵。最平凡的情况是：

全局最小值：$U = W$，此时 $\chi = I$，所有本征值为 $+1$，损失 $L_E = 0$。
全局最大值：$U = -W$，此时 $\chi = -I$，所有本征值为 $-1$，损失 $L_E = 4 \cdot 2^N$。

更一般地，考虑 $U^\dagger W$ 有 $n$ 个 $-1$ 本征值和 $(2^N - n)$ 个 $+1$ 本征值的情况。这可以通过 $W = \Pi U$ 来实现，其中 $\Pi$ 是一个置换矩阵（实际上是一个对角矩阵，对角线元素为 $\pm 1$）。此时损失值为： $$ L_E(\text{c.p.}) = 2 \left( 2^N - \sum_{i=1}^{2^N} (-1)^{n_i} \right) = 2(2^N - [(2^N - n) - n]) = 2(2^N - (2^N - 2n)) = 4n $$ 实际上，更精确的计算（考虑归一化）给出 $L_E = 2(2^N - (2^N - 2n)) = 4n$。每个具有固定 $n$ 个 $-1$ 本征值的临界点，其简并度为组合数 $\binom{2^N}{n}$，因为我们可以选择任意 $n$ 个本征值翻转符号。

注意：这里的“临界点”是梯度为零的点，包括极小值、极大值和鞍点。局部满射性假设帮助我们精确刻画了所有临界点的集合，它们由整数 $n$（$0 \le n \le 2^N$）来分类。

2.3 Hessian矩阵与景观曲率分析

知道临界点在哪里还不够，我们还需要知道在这些点附近，景观的“形状”是怎样的。这是Hessian矩阵的任务。Hessian矩阵是损失函数的二阶导数矩阵，其元素为 $H_{ab} = \frac{\partial^2 L_E}{\partial \theta_a \partial \theta_b}$，它刻画了临界点附近的曲率。

经过详细计算（涉及对 $\mu$ 算符的二次导数和在临界点条件的简化），在局部满射性假设下，临界点处的Hessian矩阵可以写成一个非常简洁的二次型： $$ H = M^T \Gamma M $$ 其中：

$M$ 是一个 $d^2 \times N_p$ 的矩阵（$d=2^N$），它的每一列对应一个参数 $\theta_a$，该列是由变换后的算符 $\bar{\mu}_a = D^\dagger \mu_a D$ 的实部和虚部矩阵元排列而成的向量。这里 $D$ 是将 $\chi$ 对角化的酉矩阵。
$\Gamma$ 是一个 $d^2 \times d^2$ 的对角矩阵，其对角线元素由 $\chi$ 的本征值 ${(-1)^{n_i}}$ 决定。具体来说，前 $d$ 个元素是 $2(-1)^{n_i}$，后续元素是 $2[(-1)^{n_i} + (-1)^{n_j}]$（对于 $i < j$）。

Hessian矩阵的这个分解形式是理解景观几何的关键。矩阵 $M$ 编码了参数变化如何影响量子态，而对角矩阵 $\Gamma$ 则直接由临界点的类型（即 $n$ 的值）决定。

3. 过参数化条件与无陷阱景观的证明

3.1 过参数化的作用与Sylvester惯性定律

过参数化在这里意味着我们使用的可变参数数量 $N_p$ 不小于量子系统希尔伯特空间维度的平方，即 $N_p \ge d^2 = 2^{2N}$。这是一个非常强的条件，在实际的量子电路中，参数数量通常远小于此。但这个理论条件具有重要的启示意义。

当 $N_p \ge d^2$ 时，矩阵 $M$ 是“胖”矩阵（列数大于等于行数）。在局部满射性假设下，$M$ 的行是线性独立的，这意味着 $M$ 是满行秩的。此时，Hessian矩阵 $H = M^T \Gamma M$ 与矩阵 $\Gamma$ 是合同的。

这里需要用到线性代数中的一个重要定理：Sylvester惯性定律。该定律指出，两个合同的矩阵具有相同的秩（非零特征值的数量）和相同的惯性指数（正特征值个数减去负特征值个数，也称为符号差）。惯性指数决定了临界点的性质：

惯性指数 = 秩：所有非零特征值同号。若为正，则是局部极小值；若为负，则是局部极大值。
惯性指数 < 秩：特征值有正有负。这意味着至少存在一个上升方向和一个下降方向，该临界点是一个鞍点。

3.2 临界点分类与景观性质

现在，我们可以通过分析 $\Gamma$ 矩阵来推断所有临界点的性质。回顾 $\Gamma$ 的对角线元素由 $\chi$ 的本征值决定。

全局最小值 ($n=0$, $U=W$)：此时所有 $(-1)^{n_i} = +1$。$\Gamma$ 的前 $d$ 个对角元为 $+2$，其余 $d(d-1)$ 个对角元为 $+4$（因为 $+1+1=2$，再乘以系数2）。所有对角元均为正数。因此，$\Gamma$ 的秩 $R_0 = d^2$，惯性指数 $S_0 = d^2$。根据Sylvester定律，Hessian矩阵 $H$ 也满足 $S=R=d^2$，且所有特征值为正。这是一个严格的局部极小值，也是全局最小值。
全局最大值 ($n=d$, $U=-W$)：此时所有 $(-1)^{n_i} = -1$。$\Gamma$ 的前 $d$ 个对角元为 $-2$，其余对角元为 $-4$。所有对角元均为负数。因此，秩 $R_d = d^2$，惯性指数 $S_d = -d^2$。Hessian矩阵所有特征值为负。这是一个严格的局部极大值，也是全局最大值。
其他临界点 ($0 < n < d$)：此时 $\chi$ 有 $n$ 个 $-1$ 本征值和 $d-n$ 个 $+1$ 本征值。
- $\Gamma$ 的前 $d$ 个对角元中，有 $n$ 个为 $-2$，$d-n$ 个为 $+2$。
- 其余对角元（对应指标对 $i<j$）的值为 $2[(-1)^{n_i} + (-1)^{n_j}]$。这会产生三种情况：$+4$（当 $n_i=n_j=+1$），$-4$（当 $n_i=n_j=-1$），以及 $0$（当 $n_i$ 和 $n_j$ 符号相反）。
- 关键点在于出现了零对角元。这意味着 $\Gamma$ 矩阵不是满秩的。计算表明，其秩 $R_n = d(d-2n) + 2dn^2$，而惯性指数 $S_n = d(d-2n)$。
- 对于 $0<n<d$，显然有 $|S_n| < R_n$。例如，当 $n=1$ 时，$S_1 = d(d-2) > 0$，但 $R_1 > S_1$，说明存在零特征值。当 $n$ 接近 $d/2$ 时，$S_n$ 可能很小甚至为零，但 $R_n$ 仍然很大。
- 由于惯性指数小于秩，并且 $S_n$ 可正可负（取决于 $n$ 与 $d/2$ 的大小），Hessian矩阵必然同时存在正、负和零特征值。因此，所有这些临界点都是鞍点。

实操心得：这个理论分析揭示了一个深刻的结论。在局部满射性和过参数化这两个“理想”假设下，损失函数景观中只有两个“陷阱”：一个是最低点（全局最优），一个是最高点。其他所有梯度为零的地方都是“马鞍点”。在鞍点处，虽然梯度为零，但至少存在一个方向是下坡路。这对于梯度下降算法是天大的好消息——它意味着只要算法有微小的扰动或能够利用二阶信息，就几乎不可能被永远困住，最终总能滑向全局最小值。这为量子机器学习算法的收敛性提供了理论保证。

3.3 理论假设的实践意义与局限性

虽然上述结论非常优美，但我们必须清醒地认识到，局部满射性和过参数化在现实中往往难以严格满足。

局部满射性的挑战：实际的量子电路（Ansatz）结构通常受到物理硬件（如量子比特连接拓扑、可用门集）和算法设计（如问题启发式的电路结构）的限制。这导致参数变化所能生成的算符集合 ${ \mu_{\alpha}^{nk} }$ 可能无法张成整个 $su(d)$ 空间。附录C中的分析表明，对于某些类似随机酉矩阵的AQML模型，局部满射性甚至会普遍失效。在实践中，我们需要通过数值或理论方法验证特定电路结构的表达能力是否足够“全面”。
过参数化的代价：要求 $N_p \ge 4^N$ 对于稍大的 $N$ 来说是天文数字，完全不现实。过参数化还会带来严重的优化灾难，如梯度消失/爆炸、超参数调整困难、以及巨大的经典优化开销。因此，实际中我们总是在欠参数化区域工作。

那么，这个理论的价值何在？它为我们指明了方向：

设计原则：尽管无法完全满足，但我们应该尽可能设计表达能力更强、参数更灵活的量子电路，使其行为在局部上“接近”满射。例如，采用层次化结构、增加纠缠层、使用通用参数化门等。
现象解释：它解释了为什么在某些简单任务或小规模系统中，优化相对容易（景观相对平坦，鞍点为主）；而在复杂任务或大规模系统中，优化变得极其困难（景观复杂，局部极小值涌现）。
算法启发：既然理想景观是无陷阱的，那么当优化陷入停滞时，问题可能不在于景观本身，而在于我们的参数化方式或优化策略。这促使我们探索电路架构搜索、自适应ansatz或引入噪声来帮助逃离次优区域。

4. 数值实验验证与景观诊断

理论需要实践的检验。我们通过数值模拟来观察真实优化景观的行为，并与理论预测进行对比。

4.1 实验设置：模拟量子模拟任务

我们选择一个典型的量子模拟任务作为测试平台：模拟一个一维横场伊辛模型的时序演化。 $$ W = \exp\left(-i \left( \sum_{i=1}^{N-1} Z_i Z_{i+1} + h \sum_{i=1}^{N} X_i \right) \right) $$ 其中 $h=0.1$。目标是用一个参数化的量子脉冲（Quantum Pulse, QP）序列来近似这个目标酉矩阵 $W$。我们使用基于Frobenius范数的损失函数 $L_E$。

参数化采用傅里叶级数展开的脉冲形式。对于N个量子比特的系统，每个控制脉冲用前 $K=5N$ 项傅里叶级数来表示。这意味着总参数数量 $N_p$ 与 $N$ 成线性关系，远小于过参数化要求的 $4^N$。我们使用自动微分框架（如PennyLane + JAX）精确计算梯度和Hessian，并用Adam优化器进行训练。

4.2 训练结果：收敛行为分析

我们对2、3、4、5个量子比特的系统分别进行了100次随机初始化的训练。图7展示了训练历史。

对于2和3量子比特系统：所有100次随机初始化都成功收敛到了损失 $L_E = 0$ 的全局最优点。梯度范数最终下降到约 $10^{-5}$ 量级，表明确实到达了临界点。
对于4和5量子比特系统：出现了截然不同的现象。所有训练都收敛了（梯度范数稳定在 $10^{-4}$ 量级），但没有一次达到全局最优（$L_E=0$）。它们全部停滞在某个更高的损失值平台上。

这个结果非常直观地展示了理论预测与现实的差距。对于小系统（N=2,3），尽管参数数量远未达到过参数化要求，但或许由于问题相对简单，电路表达能力“恰好”足以覆盖到全局最优解，且景观中可能没有足够深的局部极小值来困住优化器。然而，随着系统规模增大到N=4,5，问题的复杂度增加，欠参数化的电路结构无法维持一个无陷阱的景观，导致优化器无一例外地落入次优的局部极小值或平坦的鞍点区域。

4.3 Hessian特征值分析：揭示临界点本质

为了确认收敛点的性质，我们计算了每次训练收敛点处的Hessian矩阵，并分析了其特征值谱。图8展示了A1 QP模型的结果。

在所有情况下（包括N=2,3的成功案例），Hessian矩阵的最小特征值始终为0。这证实了收敛点确实是临界点（梯度为零），并且存在至少一个“平坦”方向（曲率为零）。这与理论中鞍点存在零特征值的预测部分相符。
对于N=2,3，虽然存在零特征值，但所有其他特征值均为正。这意味着这些临界点是退化极小值（positive semidefinite）。损失函数在这些点的任意非平坦方向上都是“向上”的，但由于存在平坦方向，它不是一个严格的局部极小值（strict local minimum）。优化器到达这里后，在平坦方向上无法获得梯度信号，从而停止。
对于N=4,5，特征值谱中同时存在正、负和零特征值。这明确无误地表明，这些收敛点是鞍点。优化器被困在了一个梯度为零，但某些方向曲率为负（可以继续下降）的点。经典的梯度下降法无法自动利用负曲率信息，因此停滞不前。

注意事项：这里揭示了一个关键点：收敛到梯度为零的点，并不代表找到了局部极小值，更不代表全局最优。在高维非凸优化中，鞍点（尤其是那些带有大量平坦方向的鞍点）是梯度下降法更常见的“陷阱”。判断一个临界点的性质，必须依赖Hessian矩阵的特征值分析。

4.4 A2 QP模型的对比：景观的改善

作为对比，实验也测试了更复杂的A2 QP模型。结果显示，对于N≥4的情况，A2模型能达到更低的损失值，并且其收敛点的Hessian矩阵同时具有正负特征值，证实了鞍点的存在。这表明，增加量子电路的深度和复杂度（A2比A1更深），虽然不能保证达到全局最优，但可以改善景观的几何结构，使得临界点更多地表现为鞍点而非局部极小值，并且可能将优化引导至更低的损失盆地。这为算法设计提供了实用指导：当优化陷入困境时，尝试增加ansatz的深度或表达能力，可能是改善优化景观的有效手段。

5. 算法-任务协同设计：从理论到实践

无陷阱景观的理论依赖于强假设，而实践常受限于欠参数化。那么，如何设计实用的量子机器学习算法呢？答案是“算法-任务协同设计”。其核心思想是：不追求通用的、完全表达能力，而是根据特定任务的需求，定制化地设计参数化量子电路（Ansatz），使其恰好能高效生成任务所需的幺正演化，同时保持相对友好的优化景观。

5.1 Magnus展开与有效哈密顿量分析

协同设计的一个有力工具是Magnus展开。任何目标幺正演化 $W = \exp(-i T H_{\text{target}})$ 都可以视为由某个有效哈密顿量 $H_{\text{eff}}$ 在时间 $T$ 内生成。我们的参数化脉冲序列 $H(t; \theta)$ 也会产生一个有效哈密顿量 $H_{\text{eff}}(\theta)$，通过Magnus展开表示为： $$ H_{\text{eff}} = H^{(0)} + H^{(1)} + H^{(2)} + \dots $$ 其中：

$H^{(0)} = \frac{1}{T} \int_0^T H(t) dt$ 是时间平均哈密顿量。
$H^{(1)} = -\frac{i}{2T} \int_0^T dt_2 \int_0^{t_2} dt_1 [H(t_2), H(t_1)]$ 是一阶修正项。
更高阶项涉及更多重对易子。

我们的目标是调节脉冲参数 $\theta$，使得 $H_{\text{eff}}(\theta)$ 尽可能接近 $H_{\text{target}}$。Magnus展开将脉冲波形 $f^\alpha_i(t)$ 与有效哈密顿量的各项系数 $\alpha_O(\theta)$（对应不同的泡利字符串算符 $O$）联系了起来。

5.2 构建可调谐的算符基

以横场伊辛模型为例，其原生哈密顿量为 $H_{\text{nat}} = J \sum_i Z_i Z_{i+1}$，控制哈密顿量为 $H_{\text{ctr}}(t) = \sum_{i,\alpha} f^\alpha_i(t) S^\alpha_i$（$\alpha = x, y, z$）。通过计算Magnus展开的前几项，我们可以系统地找出通过调节脉冲 $f^\alpha_i(t)$ 能够生成哪些有效算符。

这个过程可以形象化为一个算符传播图（见图9）。从 $Z_i Z_{i+1}$ 或 $X_i, Y_i, Z_i$ 出发，通过对易运算 $[ \cdot, \cdot ]$，可以生成新的算符。例如：

$[Z_i Z_{i+1}, X_i] \propto i Y_i Z_{i+1}$
$[Y_i Z_{i+1}, X_{i+1}] \propto i Y_i Y_{i+1}$
$[Z_i, X_i] \propto i Y_i$

通过选择不同的脉冲序列和对易路径，我们可以让有效哈密顿量 $H_{\text{eff}}$ 包含目标哈密顿量 $H_{\text{target}}$ 中所需要的各种相互作用项（如 $X_i, Y_i, Z_i, X_i X_{i+1}, Z_i Y_{i+1} Z_{i+2}$ 等）。

5.3 线性独立性与表达能力评估

关键问题在于：通过调节有限个参数 $\theta$（即有限项傅里叶级数的系数），我们能否独立地控制这些生成算符的系数 $\alpha_O(\theta)$？如果这些系数函数是线性相关的，那么我们实际上无法独立调节所有需要的相互作用，表达能力受限。

为了评估这一点，我们可以进行奇异值分解（SVD）分析：

随机采样 $M$ 组参数 ${\theta_i}$。
对每组参数，计算Magnus展开到某一阶（如二阶）所有可能算符 $O$ 的系数 $\alpha_O(\theta_i)$，构成一个特征向量 $\phi(\theta_i)$。
将所有 $M$ 个特征向量堆叠成一个 $d \times M$ 的矩阵 $D$（$d$ 是算符的数量）。
对 $D$ 进行SVD，分析其非零奇异值的数量 $s$。

如果 $s = d$，说明所有 $d$ 个系数是线性独立的，我们的参数化方式有能力独立调节这些相互作用。如果 $s < d$，则存在线性依赖，某些期望的相互作用无法被独立实现。图10的数值实验表明，对于伊辛模型，只要傅里叶基函数的数量 $K > 1$，二阶Magnus展开产生的29个算符系数几乎是线性独立的。这为设计具有足够表达能力的脉冲序列提供了依据。

5.4 协同设计实例：实现自旋压缩哈密顿量

假设我们的任务不是模拟整个伊辛演化，而是生成一个特定的自旋压缩哈密顿量$H_{\text{target}} \propto (S^z_{\text{in}})^2 X_N$，其中 $S^z_{\text{in}} = \sum_{i=1}^{N-1} Z_i$。这种哈密顿量在产生纠缠态方面很有用。

通过算法-任务协同设计，我们可以问：能否设计一个简单的脉冲，专门实现这个目标？分析表明，如果我们只开启最后一个量子比特上的X控制场 $f^x_N(t)$，而关闭其他所有控制场，那么通过Magnus展开到二阶，有效哈密顿量为： $$ H_{\text{eff}} = \alpha_{ZZ} \sum_{i} Z_i Z_N + (F^x_N / T) X_N + \alpha_{ZZX} \sum_{i, j} Z_i Z_j X_N $$ 其中 $\alpha_{ZZ}$ 和 $\alpha_{ZZX}$ 是脉冲波形 $f^x_N(t)$ 的泛函。

我们发现，第二项和第三项的组合正是我们需要的 $(S^z_{\text{in}})^2 X_N$ 的形式。而第一项 $\sum_i Z_i Z_N$ 是我们不想要的。协同设计的技巧就在于：通过精心设计脉冲波形 $f^x_N(t)$，使得系数 $\alpha_{ZZ} = 0$。这为脉冲波形施加了一个约束条件。通过求解这个约束，我们可以得到一组专门用于生成自旋压缩哈密顿量的脉冲，这比训练一个通用电路去近似整个伊辛演化要高效和专一得多。

6. 常见问题与优化策略实录

在实际操作中，基于量子机器学习的优化会遇到各种问题。下面结合理论分析和数值经验，总结一些典型问题及其应对策略。

6.1 问题：优化过早收敛，损失值停滞在高位

可能原因1：陷入平坦鞍点或退化极小值。如图8所示，即使Hessian最小特征值为0，其他特征值为正，优化也会停滞。
排查与解决：
1. 计算梯度范数：如果梯度范数已经很小（如 $<10^{-5}$），但损失值仍不理想，很可能陷入了临界点。
2. 分析Hessian特征值（如果计算可行）：确认是否存在负特征值。如果有，说明是鞍点，可以考虑使用利用负曲率的优化器，如基于自然梯度、拟牛顿法或随机扰动的方法。
3. 引入微小扰动：在参数更新中加入少量高斯噪声，帮助跳出平坦区域。
4. 调整学习率：尝试周期性增大学习率（如余弦退火重启策略），给优化器一个“冲量”来逃离平坦区。
可能原因2：电路表达能力不足（欠参数化严重）。当前的Ansatz根本无法表示目标酉矩阵 $W$。
排查与解决：
1. 进行表达能力测试：随机初始化参数，计算多次运行后能达到的最佳损失值分布。如果分布远离零，则表达能力可能不足。
2. 增加Ansatz深度或复杂度：如从A1 QP切换到A2 QP，增加纠缠层，或使用更通用的参数化门。
3. 采用算法-任务协同设计：根据目标 $W$ 的物理特性（如对称性、局域性），设计更有针对性的电路结构，而不是使用黑箱通用结构。

6.2 问题：梯度消失或爆炸（ barren plateaus ）

现象：随着量子比特数增加，损失函数的梯度方差指数级衰减，导致优化信号极其微弱。
理论联系：这与局部满射性的缺失密切相关。当参数化电路过于随机或深度过深时，$U(\theta)$ 在酉群上趋于均匀分布，导致梯度期望值为零，方差极小。
解决策略：
1. 使用局部损失函数：避免使用全局的Frobenius范数损失，改用基于局部可观测量的损失函数，其梯度方差衰减较慢。
2. 设计问题启发的Ansatz：利用问题的先验知识（如对称性、稀疏性）设计电路，避免完全随机的硬件高效Ansatz。
3. 分层训练或迁移学习：先在小系统或简单任务上训练，再将参数迁移到大系统，利用相关性保留梯度信息。
4. 引入经典神经网络预处理：用经典神经网络对参数进行非线性变换，可以缓解梯度消失问题。

6.3 问题：不同初始化和超参数下结果差异巨大

现象：相同的任务，换一个随机种子或学习率，结果可能从成功收敛到完全失败。
根本原因：损失函数景观高度非凸，且存在大量鞍点和局部极小值。优化轨迹严重依赖初始点。
优化策略：
1. 多起点并行优化：这是最直接有效的方法。并行运行大量（几十到上百次）不同随机初始化的优化，选择最佳结果。
2. 智能初始化：不要完全随机初始化。可以利用问题的近似解、经典模拟结果或迁移学习的参数进行“热启动”。
3. 自适应优化器：使用Adam、RMSprop等自适应学习率优化器，它们对初始学习率的选择相对鲁棒，且能处理稀疏梯度。
4. 学习率调度：采用带热重启的余弦退火等动态学习率策略，帮助跳出局部洼地。

6.4 问题：训练过程震荡剧烈，无法稳定收敛

可能原因：学习率过大，或者景观在某个方向非常陡峭（Hessian特征值很大）。
排查与解决：
1. 监控梯度范数和损失曲线：如果梯度范数持续大幅震荡，应调低学习率。
2. 使用梯度裁剪：设置梯度范数的上限，防止单次更新步长过大。
3. 尝试二阶优化方法：如果计算Hessian或Fisher信息矩阵可行，使用牛顿法或自然梯度下降可以自动调整不同方向上的步长，更稳定地收敛。但在参数很多时计算代价高昂。

6.5 关于“过参数化”的实用思考

理论要求 $N_p \ge 4^N$ 以实现无陷阱景观，这显然不现实。但在实践中，我们观察到一种现象：适度增加参数数量，使其显著超过某个阈值（远小于 $4^N$），往往能显著改善优化性能。这个阈值可能与任务复杂度有关，而不是希尔伯特空间维度。一个实用的建议是：在经典模拟能力允许的范围内，尽可能使用更灵活、参数更多的Ansatz，并配合正则化（如权重衰减）来防止过拟合。同时，要结合第5节的协同设计思想，让增加的参数用在“刀刃”上，即用于生成任务真正需要的算符，而不是盲目增加随机层。

量子机器学习的优化景观分析是一个连接理论深度与工程实践的桥梁。理解局部满射性和过参数化如何导向无陷阱景观，为我们设计更鲁棒、更高效的量子算法提供了根本性的原理指导。尽管完美假设难以实现，但通过算法-任务协同设计、精心构造的电路Ansatz以及针对性的优化策略，我们完全可以在现实的约束下，驾驭这片复杂但充满机遇的量子优化地形。

查看全文

http://www.jsqmd.com/news/876776/