当前位置：首页 > news >正文

量子退火优化KAN网络：从QUBO映射到快速重训练实践

news 2026/7/18 17:04:44

1. 项目概述与核心价值

最近在折腾一个挺有意思的交叉领域项目：用量子退火来优化KAN网络。简单来说，就是把一个新兴的神经网络架构（Kolmogorov-Arnold Networks， KAN）的权重优化问题，转化成一个量子退火机“看得懂”的二次无约束二进制优化问题，然后丢给量子硬件去求解。这么做的直接好处是，一次量子退火过程就能完成整个网络的权重优化，而不是像传统梯度下降那样需要成百上千次的迭代更新。更妙的是，我们引入了一种“快速重训练”机制，当新数据到来时，模型可以基于之前的状态快速调整，完全不需要重新处理旧数据，这在数据流不断变化的动态场景里简直是“神器”。

这个想法的价值在哪？如果你做过机器学习项目，尤其是那些模型需要频繁更新、或者数据是实时流式产生的场景，一定对漫长的训练时间深恶痛绝。传统的反向传播算法，每来一批新数据，都得把整个数据集（或者至少一个批次）重新过一遍网络，计算梯度，再更新权重。数据量一大，或者模型复杂一点，这个过程就变得非常耗时。我们的方法，核心是将优化问题的规模与训练样本数解耦。无论你有1万个样本还是100万个样本，需要量子退火机求解的QUBO问题规模是固定的，只取决于网络的结构（比如用了多少控制点）。预处理阶段，我们可以把整个数据集“压缩”成一个精简的表示，极大地减少了前向传播的计算量。量子退火本身的理论运行时间极短（微秒级），这使得整个训练和重训练过程获得了数量级的速度提升。

2. 核心思路与方案选型

2.1 为什么是KAN和量子退火？

选择KAN网络作为优化对象，并非偶然。KAN的核心思想是用可学习的、光滑的基函数（比如样条）来替代传统多层感知机中的固定激活函数和线性权重。这使得KAN能以更少的参数表达更复杂的函数，并且在某些任务上具有更好的可解释性。然而，KAN的训练通常比MLP慢，因为其基函数的参数优化更为复杂。

量子退火是一种专门用于解决组合优化问题的量子计算范式。它通过将优化问题映射为一个物理系统的能量最低态（基态）寻找过程来工作。D-Wave等公司的量子退火机特别擅长求解QUBO问题。我们的核心洞察在于：KAN网络的权重优化，可以被精确地重新表述为一个QUBO问题。一旦完成这个映射，量子退火机就能以其天然的并行性，在庞大的解空间中同时探索，一次性找到（近似）全局最优的权重组合，而不是像梯度下降那样沿着损失函数的曲面一点点“爬行”。

2.2 从连续优化到离散QUBO：关键转换

传统神经网络的权重是连续值。要让量子退火机处理，第一步是离散化。我们采用基数2编码，将每个连续的权重（在贝塞尔曲线中体现为控制点）用一组二进制变量来表示。例如，一个权重值x_i可以近似表示为：x_i ≈ Σ_{l=-m}^{m} (2^l * q_{i,l})，其中q_{i,l}是取值为0或1的二进制变量。

但这只是第一步。更大的挑战在于，一个多层KAN的前向计算过程，本质上是一个嵌套的复合函数。当我们将这个复合函数展开，并代入离散化的权重后，目标函数（如均方误差MSE）会变成一个关于这些二进制变量的高次多项式。而QUBO问题要求目标函数必须是这些二进制变量的二次型。

这就引出了第二个关键技术：处理高阶项。展开后的目标函数中会出现三个或更多二进制变量相乘的项（例如q_a * q_b * q_c）。这超出了QUBO的二次范畴，形成了一个高阶无约束二进制优化问题。为了解决这个问题，我们引入了辅助变量。例如，我们可以引入一个新的二进制变量V_aux，并强制它等于q_a * q_b。通过在QUBO目标函数中添加一个惩罚项Penalty = w * (q_a * q_b - 2*V_aux*q_a - 2*V_aux*q_b + 3*V_aux)，并赋予一个足够大的惩罚系数w，就能在优化中迫使V_aux的行为与q_a * q_b一致。通过递归地应用这个技巧，任何高阶问题都能被“降次”为等价的二次问题。

实操心得：辅助变量的代价引入辅助变量是解决HUBO到QUBO转换的经典方法，但它直接增加了所需量子比特的数量。在我们的实验中，对于一个中等复杂度的KAN，辅助变量的数量可能远超原始变量。这成为当前量子硬件（量子比特数有限）下模型规模的主要限制。因此，在设计网络结构（如贝塞尔曲线的阶数）时，必须在表达能力和问题规模之间做精细的权衡。不是阶数越高越好，过高的阶数会导致辅助变量爆炸，反而可能因为当前量子硬件的噪声和连接限制，让退火机更难找到好解。

2.3 为什么选择贝塞尔曲线作为基函数？

原文尝试了多种样条基函数，如B样条、傅里叶样条等。对于单层KAN，它们都能很好地被转化为QUBO问题。然而，对于多层KAN，贝塞尔曲线展现出了独特的优势。

关键在于连续可微性和可展开性。一个n阶贝塞尔曲线B(t)可以完全展开为关于参数t和控制点P_i的多项式形式：B(t) = Σ_{i=0}^{n} C(n,i) * (1-t)^{n-i} * t^i * P_i。这个展开式是全局连续可微的，并且每一项都是控制点P_i的线性函数。当我们将离散化的控制点（即二进制变量）代入，并进行多层复合时，最终得到的目标函数虽然复杂，但其每一项仍然是这些二进制变量的多项式。更重要的是，通过上述的辅助变量技巧，我们可以系统性地将其降至二次。

相比之下，其他样条基函数在多层复合时，可能会引入条件判断（如分段函数的边界）或无法完全展开为多项式，这使得它们难以被严格地转化为纯粹的二次型QUBO问题。因此，贝塞尔曲线因其数学形式上的“友好”，成为了实现可量子优化的多层KAN的唯一可行选择（在当前方法框架下）。

3. 算法实现与核心步骤拆解

3.1 整体流程框架

整个量子优化KAN的流程可以概括为以下四个核心阶段，下图清晰地展示了从数据准备到量子求解的完整闭环：

flowchart TD A[输入: 训练数据集] --> B[阶段一: 问题构建] subgraph B [阶段一: 问题构建] B1[定义KAN网络结构<br>（层数、节点、贝塞尔曲线阶数）] B2[将连续权重（控制点）<br>离散化为二进制变量] B3[将网络前向计算过程<br>展开为二进制变量多项式] B4[将损失函数（如MSE）<br>表达为二进制变量的高阶多项式] end B --> C[阶段二: QUBO/HUBO公式化] subgraph C [阶段二: QUBO/HUBO公式化] C1{检查多项式阶数} C2[“引入辅助变量<br>将高阶项降至二次”] C3[构建最终的QUBO矩阵 Q] end C --> D[阶段三: 输入数据“压缩”] subgraph D [阶段三: 输入数据“压缩”] D1[“分析QUBO目标函数结构:<br>常数 * 已知数组 * 未知变量”] D2[“预计算并求和“已知数组”<br>得到“压缩”标量值”] D3[用“压缩”标量替代原始数据集<br>执行单次前向传播] end D --> E[阶段四: 量子退火求解] subgraph E [阶段四: 量子退火求解] E1[将QUBO矩阵Q提交至<br>量子退火机（如D-Wave）] E2[退火机寻找使能量<br>最小的二进制变量组合] E3[将最优二进制解解码<br>为连续权重（控制点）] end E --> F[输出: 训练好的KAN模型]

3.2 核心步骤详解与代码示意

步骤一：定义网络与离散化首先，你需要确定KAN的结构，例如[2, 3, 1]表示一个三层网络，输入层2个节点，隐藏层3个节点，输出层1个节点。每个连接上的可学习函数都是一个贝塞尔曲线。接着，为每个贝塞尔曲线的每个控制点确定离散化精度。例如，决定用5个二进制变量（m=2，表示从2^-2到2^2）来表示一个控制点。

# 伪代码示意：定义网络和离散化方案 network_shape = [2, 3, 1] bezier_degree = 2 # 所有贝塞尔曲线使用二阶 bits_per_control_point = 5 # 计算总变量数：总控制点数 * bits_per_control_point + 辅助变量数（后续确定）

步骤二：符号展开与QUBO矩阵构建这是最复杂的一步。你需要用符号计算（可以使用SymPy库）将整个多层KAN的前向计算表达式y_pred = f(x, q)完全展开，其中q是所有二进制变量的向量。然后将均方误差损失MSE = (1/N) * Σ (y_true - y_pred)^2也展开成关于q的巨大多项式。

# 伪代码示意：符号展开（高度简化） import sympy as sp # 定义二进制变量 q = sp.symbols('q0:100') # 假设有100个二进制变量 # 定义输入x和真实输出y_true为符号（对于构建通用QUBO矩阵） x_sym = sp.symbols('x') y_true_sym = sp.symbols('y_true') # 根据网络结构，构建y_pred的符号表达式（这里省略复杂的贝塞尔曲线复合过程） # y_pred_expr = ... (一个关于x_sym和q的巨型表达式) # 构建MSE的符号表达式（针对单个样本） loss_expr = (y_true_sym - y_pred_expr)**2 # 将loss_expr展开并整理成关于q的多项式 poly = sp.expand(loss_expr)

展开后，你会得到一个形如Σ c_ijk... * q_i * q_j * q_k * ...的多项式。你需要遍历所有项，识别出阶数大于2的项（如q_i * q_j * q_k）。对于每一个这样的高阶项，引入一个新的辅助变量V_aux，并按照前面提到的惩罚项公式，将其增广到目标函数中。这个过程是系统性的，但非常繁琐，通常需要编写自动化脚本完成。

最终，所有项（包括原始二次项、一次项和新增的惩罚项）都会被整合，目标函数被重写为标准的QUBO形式：f(q) = Σ_i Q_ii * q_i + Σ_{i<j} Q_ij * q_i * q_j。这里的Q矩阵就是我们需要提交给退火机的QUBO矩阵。

注意事项：惩罚系数w的选择惩罚系数w的设定至关重要。如果w太小，惩罚项约束力不足，辅助变量可能不满足V_aux = q_i * q_j的关系，导致求解结果错误。如果w太大，可能会掩盖原始优化目标，使退火机过度关注满足约束，而忽略了最小化原始损失。一个经验法则是将w设置为原始QUBO矩阵中最大系数绝对值的15到25倍。在实际操作中，可能需要在小规模问题上进行几次调优来确定合适的范围。

步骤三：输入数据“压缩”观察QUBO目标函数的构成，对于固定数据集，y_true和x是已知的。在展开的多项式中，每一项都可以因式分解为(常数因子) * (已知数据构成的系数) * (二进制变量组合)。关键的一步是，我们可以在开始优化之前，就对整个数据集进行预计算，将这些“已知数据构成的系数”求和，合并成一个单一的标量值。

例如，假设有一项是(q_a * q_b) * Σ_{k=1}^{N} (x_k^2)。我们不需要在每次评估目标时都计算Σ x_k^2，而是在预处理阶段一次性算出这个总和S = Σ x_k^2。那么这一项在目标函数中就变成了S * (q_a * q_b)。这个过程就是“压缩”。它把对N个样本的循环求和，提前压缩成了几个标量值。这使得后续的“前向传播”计算量从O(N)降低到了O(1)，与数据集大小无关，只与网络结构有关。

步骤四：量子退火求解与解码将构建好的QUBO矩阵Q提交给量子退火机（如通过D-Wave的Ocean SDK）。退火机会进行多次读取，返回一组组二进制变量的解{q}。我们需要从这些解中选出能量最低（即目标函数值最小）的一组。

# 伪代码示意：使用D-Wave Ocean SDK提交问题 from dwave.system import DWaveSampler, EmbeddingComposite import dimod # 假设我们已经构建了QUBO矩阵的上三角形式，存储为字典 qubo_dict # 例如：{(i,i): linear_bias, (i,j): quadratic_coupling} bqm = dimod.BinaryQuadraticModel.from_qubo(qubo_dict) # 连接到退火机（实际使用需要配置API token和solver） sampler = EmbeddingComposite(DWaveSampler()) sampleset = sampler.sample(bqm, num_reads=1000) # 读取1000次 # 获取最佳解 best_sample = sampleset.first.sample

最后，根据最佳解中的二进制变量取值，利用我们之前定义的基数2编码规则，反向解码出每个贝塞尔曲线的连续控制点值。这样，一个训练好的KAN模型就得到了。

3.3 快速重训练机制实现

快速重训练是本研究的一大亮点。其核心思想是增量更新QUBO目标函数。

初始训练：在拥有初始数据集D_old时，我们按照上述流程构建QUBO问题并求解，得到最优权重q_opt。同时，我们将“压缩”后的目标函数状态OBJ_old（即所有那些由D_old计算出的标量系数之和）保存下来。
新数据到来：当新数据集D_new到达时，我们不需要重新处理D_old。我们加载之前保存的KAN网络结构（展开式）和OBJ_old。
增量构建：仅对D_new执行一次“压缩”前向传播，计算出由D_new贡献的标量系数之和，记为OBJ_new。
合并与求解：新的总目标函数为OBJ_total = OBJ_old + OBJ_new。基于这个更新后的OBJ_total，我们再次调用量子退火机求解。由于问题规模（变量数）没有变，只是QUBO矩阵Q中的系数发生了更新，而量子退火单次运行时间极短，因此重训练速度极快。
权重更新：解码退火结果，得到适应新旧数据联合分布的新权重。

这个过程避免了在经典重训练中必须将D_old和D_new合并后重新进行多轮epoch训练的巨大开销。理论上，重训练的时间成本接近于单次量子退火的时间加上对新数据的一次前向传播压缩计算，这在数据流频繁更新的场景下优势巨大。

4. 实验结果分析与避坑实录

4.1 性能对比数据解读

我们在多个分类和回归任务上对比了量子退火优化器（包括纯量子退火和混合量子退火）、模拟退火以及经典的基于梯度的优化器（Adam， SGD， AdaGrad）。

分类任务（Circle/Moon数据集）：使用单层KAN[2,1]。结果显示，量子退火优化得到的模型在准确率、精确率、召回率等指标上与传统优化器结果相当。但在训练时间上，量子方法比梯度下降类优化器快12.5倍以上，比模拟退火快近23倍。这说明在可解的问题规模内，量子退火在保持性能的同时，实现了显著的加速。
回归任务：对于更复杂的多层KAN回归任务，由于变量数增多，我们使用了混合量子退火器（结合了经典和量子计算资源）。即使混合求解器每次求解需要约3秒（远长于纯量子退火的微秒级），在进行了四轮增量重训练后，其总时间仍然仅为梯度下降优化器完成一轮训练所需时间的八分之一。对于另一个回归任务，纯量子退火器的初始训练速度比梯度下降快32倍，而重训练时间仅为后者的1%。
规模与噪声的挑战：在第三个更复杂的回归任务中（变量数超过200），当前量子退火机由于量子比特数量有限、噪声较高以及链断裂等问题，难以稳定地编码和求解该问题。模拟退火在允许足够长的运行时间后能找到解。一个有趣的发现是，盲目增加贝塞尔曲线的阶数（即增加模型灵活性）有时反而会导致优化结果变差。这是因为更高的阶数意味着更多的变量和更复杂的相互作用，在当前有噪的中规模量子硬件上，更可能陷入非最优解。这提示我们，在NISQ时代，模型设计需要与硬件约束相匹配，并非越复杂越好。

4.2 实操中遇到的典型问题与解决方案

问题1：QUBO矩阵规模爆炸当KAN层数增加或贝塞尔曲线阶数提高时，所需的二进制变量和辅助变量数量会急剧增长，导致QUBO矩阵维度爆炸，超出当前量子退火机的硬件限制。

排查与解决：
1. 模型简化：从极小的网络开始（如[1,1,1]），验证流程，再逐步增加复杂度。
2. 精度权衡：减少每个控制点的二进制表示位数（bits_per_control_point）。虽然这会降低权重精度，但能线性减少变量数。需要在精度和可求解性之间找到平衡点。
3. 问题分解：研究将大型QUBO问题分解成多个较小的、可独立求解的子问题的方法，但这需要针对KAN结构设计特定的分解策略。

问题2：退火结果不稳定，每次返回的解差异大这是当前NISQ时代量子硬件的通病，主要由量子噪声和退火过程中的随机性导致。

排查与解决：
1. 增加读取次数：提交任务时，设置num_reads=1000或更高，从大量候选解中选取能量最低、出现频率最高的解作为最终输出。
2. 退火参数调优：调整退火时间表（Annealing Schedule）。有时较长的退火时间或加入暂停（pause）有助于找到更好的基态。D-Wave系统允许自定义退火路径。
3. 后处理：对退火返回的多个低能量解进行局部经典优化（如使用模拟退火进行“精炼”），这通常是混合求解器的一部分。
4. 结果验证：由于量子计算的非确定性，对于关键应用，建议在相同条件下多次运行整个训练流程，观察模型性能的统计稳定性。

问题3：“压缩”预处理计算耗时过长虽然“压缩”将迭代中的计算移到了预处理阶段，但当数据集极大时，符号展开和系数预计算本身可能成为瓶颈。

排查与解决：
1. 代码优化：使用高效的符号计算库（如SymPy的lambdify将表达式转换为NumPy函数），并利用numba或JIT编译加速循环。我们的实验表明，代码层面的优化潜力巨大，理论上的加速优势需要高效的实现来兑现。
2. 备忘录模式：在计算“压缩”系数时，大量中间项被重复计算。实现一个缓存系统（备忘录），存储已计算过的项，可以大幅减少计算量。
3. 分批压缩：对于超大数据集，可以考虑先对数据进行聚类或采样，生成一个代表性的小子集进行“压缩”计算，虽然会引入近似，但能极大提速。

问题4：快速重训练后模型性能下降当新数据D_new的分布与旧数据D_old差异很大时，简单的目标函数叠加OBJ_old + OBJ_new可能不足以让模型很好地适应新分布，导致在新数据上性能下降，甚至遗忘旧知识。

排查与解决：
1. 验证集加权：在初始构建目标函数时，就引入一个加权的验证集损失项（如原文公式7）。这相当于一种内置的正则化，让模型在训练时就不至于过拟合到初始数据上，为未来的分布漂移留出一定的适应空间。
2. 动态加权叠加：不要简单地将OBJ_old和OBJ_new以1:1权重相加。可以引入一个遗忘因子α (0<α<1)，采用OBJ_total = α * OBJ_old + OBJ_new。α越小，模型对新数据的关注度越高。这需要根据数据流的变化剧烈程度来调整。
3. 定期全量训练：将快速重训练作为高频更新的手段，但同时定期（例如每天或每周）用累积的全部数据做一次完整的重新训练，以校准模型状态。

5. 未来展望与工程化思考

这项工作展示了量子退火在优化特定类型神经网络上的可行性和速度潜力，特别是在快速重训练这一细分场景下，优势明显。但它仍处于早期阶段，距离大规模实用还有距离。

硬件依赖与演进：当前最大的瓶颈是量子硬件的规模和质量。全连接量子退火机的出现将能直接减少对辅助变量的需求，实现物理量子比特与逻辑变量的一一对应，从而支持更大网络的优化。随着量子比特数量的增加和保真度的提升，可解决的问题规模将不断扩大。

算法与模型的扩展：本文的方法为“可量子优化的机器学习模型”提供了一个范式。未来的研究可以探索：

其他基函数：寻找除了贝塞尔曲线外，其他同样满足“可展开为多项式”条件的基函数，以丰富KAN的表达能力。
其他模型：尝试将QUBO优化框架应用于其他结构相对固定、参数可离散化的机器学习模型，如某些类型的贝叶斯网络、小规模的Transformer组件等。
基于门的量子计算：探索在通用量子计算机上，通过量子近似优化算法或变分量子算法来实现类似的优化，可能具有更好的灵活性和可扩展性。

工程化落地的考量：要将这套方案用于实际生产环境，需要构建一个完整的流水线，包括：自动化的网络结构到QUBO的编译器、高效的“压缩”预处理模块、与云量子硬件（或高性能模拟器）的稳定接口、以及重训练状态管理服务。此外，还需要开发一套基准测试，明确在什么样的数据规模、模型复杂度、更新频率下，量子优化方案能带来具有成本效益的优势。

从我个人的实验体会来看，最大的启发是跨层思维的价值。将机器学习中的连续参数优化，转化为组合优化中的离散搜索问题，再映射到物理系统的能量最小化过程，这条路径打通了不同领域之间的壁垒。虽然当前受限于硬件，很多实验只能在玩具规模的例子上进行，但其中蕴含的“一次求解”和“增量更新”的思想，对于经典机器学习算法设计也有借鉴意义。例如，能否在经典计算中模拟这种“压缩-更新”的机制，来加速某些场景下的在线学习？这个方向的探索，或许比等待量子硬件成熟更有近期的现实意义。

查看全文

http://www.jsqmd.com/news/875317/