当前位置：首页 > news >正文

量子机器学习在金融欺诈检测中的模型架构对比与实战调优

news 2026/7/12 6:19:39

1. 项目概述：量子机器学习如何革新金融欺诈检测

金融欺诈，尤其是信用卡欺诈，已经演变成一个全球性的、日益复杂的系统性风险。传统的机器学习方法，如随机森林、梯度提升机乃至深度学习模型，虽然在过去十年里取得了显著成效，但面对如今海量、高维、极度不平衡且欺诈模式快速演变的交易数据流，其瓶颈也愈发明显。计算复杂度、特征交互的局限性以及对实时性的苛刻要求，都在呼唤新的技术范式。正是在这个背景下，量子机器学习（Quantum Machine Learning, QML）从理论物理的殿堂走向了金融科技的实战前线。

量子机器学习并非要完全取代经典算法，而是提供一种全新的计算视角和工具集。其核心价值在于利用量子力学的两大基石——叠加（Superposition）和纠缠（Entanglement）。简单来说，一个量子比特（Qubit）可以同时处于 |0⟩ 和 |1⟩ 的叠加态，这意味着 N 个量子比特可以同时表示 2^N 种状态，提供了天然的并行计算能力。而纠缠则使得多个量子比特的状态紧密关联，即使它们在空间上分离，改变其中一个会瞬间影响另一个，这种强关联性非常适合捕捉数据特征之间复杂的非线性关系。

在欺诈检测场景中，一笔交易的特征（如时间、地点、金额、商户类型）不再是孤立的数值，通过量子特征映射（Feature Map）被编码为一个多维量子态。随后，一个参数化的量子电路（即Ansatz）对这个态进行“搅拌”和演化，其参数通过经典优化器（如COBYLA）不断调整，最终通过测量得到分类结果（欺诈/正常）。这个过程，本质上是在一个指数级庞大的希尔伯特空间中寻找最优的分类边界。

本文旨在深入探讨的，正是这个过程中的核心工程问题：面对具体的金融欺诈数据集，如何选择和配置量子机器学习模型的不同组件，才能达到最佳的性能？我们将基于一项前沿研究，系统性地拆解三种主流QML架构——变分量子分类器（VQC）、采样器量子神经网络（SQNN）和估计器量子神经网络（EQNN），并结合Pauli、ZZ、Z三种特征映射以及RealAmplitudes、EfficientSU2等四种量子电路设计，在真实的银行模拟（BankSim）和欧洲信用卡交易数据集上进行全面的性能对比分析。无论你是对量子计算感兴趣的数据科学家，还是寻求风控技术突破的金融科技从业者，这篇文章都将为你提供从理论认知到实践评估的完整路线图。

2. 核心架构解析：量子机器学习模型的三大支柱

要理解不同QML模型的性能差异，首先必须深入其内部构造。一个典型的量子机器学习模型，可以抽象为三个核心阶段：数据编码（特征映射）、量子态演化（Ansatz）以及测量与优化。这三个部分的不同设计与组合，直接决定了模型处理特定任务的能力上限。

2.1 量子特征映射：将经典数据“翻译”成量子语言

特征映射是整个流程的起点，其任务是将经典的、数值化的特征向量 x 映射到一个高维的量子态 |ψ(x)⟩。你可以把它想象成一种特殊的“翻译器”，把我们的数据“说”成量子计算机能理解的语言。不同的“翻译规则”（即映射函数）会极大地影响后续量子电路能表达的信息复杂度。

2.1.1 Pauli特征映射：构建高阶特征交互

Pauli特征映射是一种基于泡利算子（Pauli Operators：I, X, Y, Z）展开的通用编码方式。其数学表达如公式(1)所示，它通过指数映射将数据特征编码为旋转门的角度。关键在于，它不仅对单个量子比特进行旋转（对应一阶项），还通过泡利算子的张量积（如 Z⊗Z, X⊗Y⊗Z 等）引入了不同量子比特之间的关联，即纠缠。这种纠缠对应着对原始特征的高阶组合（如 x_i * x_j）的编码能力。

实操心得：在实际使用Qiskit等框架时，PauliFeatureMap的entanglement参数（如‘full’,‘linear’,‘circular’）决定了哪些量子比特之间建立纠缠连接。对于金融数据中可能存在复杂交叉特征（例如“深夜”+“高额”+“境外商户”的组合风险剧增）的场景，使用‘full’（全连接）通常能获得更强的表达能力，但也会显著增加电路深度和训练难度。我的经验是，对于初始探索，可以从‘linear’（线性邻接）开始，它是一个在表达能力和电路复杂度之间不错的折衷。

2.1.2 ZZ特征映射：专注于两两关联

ZZ特征映射是Pauli特征映射的一个特例，它只使用Z和Z⊗Z（即ZZ）算子。其电路通常以一层哈达玛门（H）开始，将所有量子比特置于叠加态，然后应用由数据控制的Z旋转门，最后通过受控非门（CNOT）等纠缠门建立两两之间的关联。ZZ映射可以看作是对数据二阶关联（两两特征乘积）的显式编码。公式(4)展示了一种常见的角度映射函数 φ(x)，它通过连乘 (π - x_i) 来生成旋转角度，这种非线性变换有助于将数据投射到更易区分的量子态空间中。

2.1.3 Z特征映射：轻量化的单比特编码

Z特征映射则更为简单，它仅使用Z算子，不引入任何纠缠门。这意味着每个量子比特的编码是独立的，电路深度最浅，计算资源消耗最低。它的优势在于速度快、噪声影响小，特别适合在目前嘈杂的中尺度量子（NISQ）设备上运行，或者作为性能基线。但其缺点也很明显：由于缺乏纠缠，它无法捕捉特征之间的任何关联信息，表达能力有限。

注意事项：选择特征映射时，必须权衡“表达力”和“可训练性”。表达力过强（如深层、全纠缠的Pauli映射）的电路可能面临“贫瘠高原”（Barren Plateaus）问题，即损失函数的梯度在参数空间中几乎处处为零，导致经典优化器无法找到下降方向。对于金融欺诈这种特征可能高度相关的问题，从ZZ映射开始尝试通常是更稳妥的策略。

2.2 参数化量子电路：可训练的“量子大脑”

特征映射将数据固定地编码为量子态后，接下来就需要一个可调节的量子电路来对这个态进行变换和学习，这就是Ansatz，也称为参数化量子电路。它由一系列带参数 θ 的量子门（如旋转门 RX(θ), RY(θ), RZ(θ)）和固定的纠缠门（如CNOT）构成。通过优化这些参数 θ，我们让量子态朝着有利于正确分类的方向演化。

2.2.1 RealAmplitudes：实数振幅专用电路

如其名，RealAmplitudes结构设计的初衷是产生仅具有实数量子振幅的态（即波函数没有虚部）。它通常由交替的纠缠层（CNOT门）和单比特旋转层（RY门）构成。这种结构对于许多需要实数解的组合优化问题或特定类型的量子态制备非常高效。在分类任务中，如果数据经过预处理后主要包含实数特征，且问题本身对称性较高，RealAmplitudes可能是一个简洁有效的选择。

2.2.2 EfficientSU2：通用性强的标准选择

EfficientSU2是Qiskit中一个非常常用的通用Ansatz。它在每个量子比特上依次施加由参数控制的RX、RY、RZ旋转门（覆盖了SU(2)群，即所有可能的单比特操作），然后再加上一层纠缠。这种结构非常灵活，理论上可以通过调整参数来逼近任何单比特操作，因此表达能力强。对于没有先验知识的问题，EfficientSU2通常是一个不错的起点。

2.2.3 TwoLocal：高度可定制的模块化设计

TwoLocal提供了更大的灵活性，允许用户自定义“旋转层”和��纠缠层”中使用的具体量子门类型和排列方式。例如，你可以指定旋转层使用[‘ry’, ‘rz’]，纠缠层使用‘cx’（CNOT）并以‘circular’方式连接。这种设计使其能够针对特定问题的已知结构进行定制，例如模仿某些物理系统的相互作用。

2.2.4 PauliTwoDesign：面向随机电路与抗噪

PauliTwoDesign的结构更复杂一些，它以一层固定的Ry(π/4)门开始，然后交替使用随机选择的泡利旋转门（X, Y, Z中随机选）和纠缠门（通常是CZ门）。这种设计受到“量子电路复杂度”和“抗噪”研究的启发，有时在噪声环境下或需要特定随机性的场景中表现更好，但其训练行为可能更难以预测。

核心考量：Ansatz的设计直接影响模型的“表达能力”和“训练难度”。一个过于简单的Ansatz可能无法拟合复杂的数据模式（欠拟合），而一个过于复杂、参数过多的Ansatz不仅会增加计算开销，更容易陷入局部最优或遭遇贫瘠高原（过拟合/难训练）。在金融欺诈检测中，由于欺诈模式隐蔽且多变，通常需要中等表达能力的Ansatz。从我们的实验经验看，EfficientSU2和TwoLocal在多数场景下提供了较好的平衡点。

2.3 三大QML模型架构对比

理解了特征映射和Ansatz这两个基础组件后，我们再来审视本次研究的三个主角：VQC、SQNN和EQNN。它们的核心区别在于如何利用量子计算的结果。

2.3.1 变分量子分类器：端到端的量子优化

VQC是最经典、最直接的量子-经典混合模型。其工作流程非常清晰：经典数据 -> 特征映射（编码）-> Ansatz（参数化演化）-> 量子测量 -> 得到预测值 -> 计算损失 -> 经典优化器更新Ansatz参数 -> 循环。整个过程形成一个闭环，所有可训练参数（即Ansatz的参数 θ）都通过经典的梯度下降或直接搜索方法进行优化，以最小化交叉熵等损失函数。VQC的优点是概念直观，整个模型在量子层面具有一致性。但其量子电路的深度直接受限于当前量子硬件的相干时间，且所有计算（包括梯度估计）都需要在量子处理器或模拟器上完成，成本较高。

2.3.2 估计器量子神经网络：量子特征提取器

EQNN采取了不同的策略。它将量子电路视为一个强大的“量子特征提取器”。流程如下：经典数据 -> 特征映射 -> Ansatz -> 量子测量。但这里的关键是，测量得到的并不是最终的分类标签，而是一组新的“量子特征”。这组特征随后被送入一个经典的全连接神经网络中进行最终分类。因此，EQNN需要联合优化两套参数：量子电路Ansatz的参数 θ，以及经典神经网络的权重 W 和偏置 b。这种结构的优势在于，经典神经网络可以学习如何更好地利用量子部分提取出的（可能是高维、非线性的）特征，提供了额外的建模灵活性。然而，其训练也更复杂，需要协调两种不同性质的优化过程。

2.3.3 采样器量子神经网络：基于概率采样的推理

SQNN的运作机制最为独特。它同样使用量子电路处理数据，但其输出不是一个确定的期望值或特征向量，而是从量子态对应的概率分布中采样出的一组样本。一个量子采样器（Quantum Sampler）会多次运行电路，每次“坍缩”到一个确定的基态（如 |0101⟩），从而得到一组符合该量子态概率分布的比特串。这些采样得到的比特串样本，再通过经典的后处理算法（例如，寻找出现频率最高的模式，或将其输入一个轻量级经典模型）来得出最终预测。SQNN的思想是，对于一些复杂问题，直接获取精确的期望值计算量很大，而采样可能是一种更高效的近似推理方式。但其性能严重依赖于采样效率和后续经典处理算法的有效性。

下表总结了三种模型的核心区别：

特性	变分量子分类器 (VQC)	估计器量子神经网络 (EQNN)	采样器量子神经网络 (SQNN)
核心思想	端到端的量子参数优化	量子电路作为特征提取器	量子电路作为概率分布采样器
输出	直接为分类期望值（如）	量子测量值作为特征向量	从量子态概率分布中采样的比特串
经典部分角色	优化器（更新量子参数）	神经网络（处理量子特征）	后处理算法（解析采样结果）
训练参数	Ansatz参数 θ	Ansatz参数 θ + 神经网络权重(W,b)	Ansatz参数 θ （可能还有后处理参数）
优势	概念清晰，量子部分自洽	结合经典NN的强拟合能力，更灵活	对某些问题采样可能比精确计算更快
潜在挑战	容易遇到贫瘠高原，电路深度受限	量子-经典联合优化难度大	采样噪声大，需要大量shots，后处理设计复杂

3. 实验设计与实操：从数据准备到模型评估

理论再优美，也需要在真实数据上验证。本部分将详细还原从数据准备、特征工程、模型配置到训练评估的完整实验流程，并穿插关键的实操要点和避坑指南。

3.1 数据集深度处理与特征洞察

研究使用了两个具有代表性的金融欺诈数据集，它们的特点截然不同，这有助于检验模型的泛化能力。

3.1.1 BankSim数据集：仿真的商户-客户网络数据

BankSim是一个基于智能体模拟生成的合成数据集，它通过统计和社会网络分析模拟了商户与客户之间的交易关系，因此数据间存在复杂的网络关联特性。原始数据包含近60万条记录，欺诈比例约为1.2%。字段包括模拟时间步（Step）、客户ID、商户ID、金额、类别、年龄分段、性别等。

关键预处理步骤：
1. 类别特征编码：Customer,Merchant,Category,Gender等类别变量使用标签编码（Label Encoding）或独热编码（One-Hot Encoding）转换为数值。这里需要注意，对于ID类特征（如Customer），简单的标签编码可能引入无意义的序关系，更好的做法是使用嵌入（Embedding）或考虑其出现频率，但在初始实验中，标签编码是可行的基线方法。
2. 无关特征剔除：ZipCodeOrigin和ZipMerchant由于在仿真中缺乏实际变化（可能数据生成机制导致），被直接移除，以避免引入噪声。
3. 数据平衡化：原始数据极度不平衡（欺诈仅占1.2%）。我们采用了随机欠采样，从多数类（正常交易）中随机抽取与少数类（欺诈交易）同等数量的样本，构造了一个1:1的平衡数据集（各492条）。注意：欠采样会损失大量正常样本的信息，仅适用于探索性实验。在生产环境中，应优先考虑过采样（如SMOTE）、代价敏感学习或集成方法。
4. 特征缩放：所有数值特征使用MinMaxScaler缩放到 [0, 1] 区间。这对于基于旋转角度的量子编码至关重要，因为角度通常被限制在 [0, 2π] 或类似范围。

3.1.2 欧洲信用卡数据集：PCA降维后的匿名数据

这是一个经典的公开数据集，包含28万条真实交易记录，其中欺诈交易仅492笔（0.172%）。原始特征已通过PCA处理成28个主成分（V1-V28），并保留了“Time”和“Amount”两个原始特征。

关键预处理步骤：
1. PCA特征选择：原始28个PCA特征中，并非所有都重要。通过分析特征重要性（例如基于树模型），我们选取了最重要的7个特征（V1-V7）进行实验。这既是为了降低问题规模以适应有限的量子比特数，也是模拟真实场景中的特征筛选。
2. 处理“Time”特征：“Time”表示该交易与数据集中第一笔交易之间的秒数。直接使用这个连续值可能不是最佳选择。常见的技巧是将其转换为一天中的“小时”或“是否在深夜”等周期性特征。在本实验中，为简化，我们对其进行了与“Amount”相同的归一化处理。
3. 同样的平衡与缩放：同样应用随机欠采样得到平衡数据集，并对所有特征进行归一化。

实操心得：特征相关性分析的重要性在投入量子模型训练前，花时间进行特征相关性分析（如图8，图9）和重要性排序（如图10，图11）是极其重要的。例如，在BankSim数据中，“Category”（交易类别）与“Fraud”标签呈强负相关，而“Amount”（金额）呈正相关，这符合直觉（某些类别的交易风险低，高额交易风险高）。这个分析不仅帮助我们理解数据，更重要的是：它指导我们如何设计量子特征映射。对于强相关的特征，可以考虑在编码时让它们作用于纠缠的量子比特对上，以利用量子纠缠来显式地建模这种相关性。

3.2 量子模型配置与训练细节

实验采用了严格的对照设置，以确保结果可比性。

3.2.1 核心配置参数

量子比特数：根据筛选后的特征数量，分别测试了4、6、7个量子比特。这决定了量子电路的宽度。
特征映射：PauliFeatureMap, ZZFeatureMap, ZFeatureMap。其中，Pauli和ZZ映射的重复次数（reps）测试了1和2，以增加编码复杂度。
Ansatz：RealAmplitudes, EfficientSU2, TwoLocal, PauliTwoDesign。其重复次数同样测试了1和2。
优化器：主要使用COBYLA（一种无梯度优化器），同时对比了ADAM和梯度下降。COBYLA在量子优化中常用，因为它不依赖于梯度计算（量子梯度的估计本身有噪声和成本）。
最大迭代次数：350次。这是一个经验值，需要观察损失曲线是否已收敛。
后端模拟器：使用Qiskit的QasmSimulator（带噪声模拟）和StatevectorSimulator（无噪声精确模拟）进行对比，以评估噪声影响。

3.2.2 训练流程与代码要点

以下是一个基于Qiskit构建VQC训练流程的简化示例：

import numpy as np from qiskit import QuantumCircuit from qiskit.circuit.library import ZZFeatureMap, RealAmplitudes from qiskit_machine_learning.algorithms import VQC from qiskit_algorithms.optimizers import COBYLA from qiskit.primitives import Sampler from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler # 1. 数据准备 (以BankSim为例) # X, y 为经过预处理和平衡后的特征与标签 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) scaler = MinMaxScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) # 2. 构建量子模型组件 num_qubits = X_train_scaled.shape[1] # 特征数决定量子比特数 feature_map = ZZFeatureMap(feature_dimension=num_qubits, reps=2, entanglement='full') ansatz = RealAmplitudes(num_qubits, reps=2) optimizer = COBYLA(maxiter=350) # 3. 实例化VQC # 注意：Qiskit Machine Learning 版本更新可能改变API vqc = VQC( sampler=Sampler(), # 使用Sampler基元 feature_map=feature_map, ansatz=ansatz, optimizer=optimizer, loss='cross_entropy' ) # 4. 训练模型 vqc.fit(X_train_scaled, y_train) # 5. 评估模型 train_score = vqc.score(X_train_scaled, y_train) test_score = vqc.score(X_test_scaled, y_test) print(f"Training Accuracy: {train_score:.3f}") print(f"Testing Accuracy: {test_score:.3f}") # 更详细的评估 from sklearn.metrics import classification_report y_pred = vqc.predict(X_test_scaled) print(classification_report(y_test, y_pred, target_names=['Legit', 'Fraud']))

注意事项：量子比特数与特征数的匹配一个常见的误区是“一个特征对应一个量子比特”。虽然有时如此，但量子特征映射可以将多个特征编码到一个量子比特上（例如通过多个旋转门），也可以将一个特征扩展到多个量子比特的纠缠态上。实验中我们让量子比特数等于筛选后的特征数（4, 6, 7），这是一种直接且资源可控的方式。如果特征数很多，必须进行降维（如PCA）或特征选择，因为目前可用的量子比特数非常有限。

3.3 性能评估指标与结果分析

在高度不平衡的欺诈检测任务中，准确率（Accuracy）是一个具有误导性的指标。我们主要关注以下一组指标：

精确率：在所有被模型预测为欺诈的交易中，真正是欺诈的比例。高精确率意味着误报（False Positive）少，减少了对好用户的打扰。
召回率：在所有真实的欺诈交易中，被模型成功抓出的比例。高召回率意味着漏报（False Negative）少，降低了损失风险。
F1分数：精确率和召回率的调和平均数，是衡量模型在正类（欺诈）上综合性能的核心指标。
损失函数曲线：观察训练过程中损失值的变化，可以判断模型是否收敛、训练是否稳定，以及是否存在振荡或陷入平原。

3.3.1 BankSim数据集上的表现

根据论文中的结果（对应其Table II, III, IV），我们可以得出一些关键结论：

VQC表现稳健：在多种配置下，VQC都能取得不错的F1分数。最佳配置是PauliFeatureMap + EfficientSU2或ZZFeatureMap + EfficientSU2，F1分数达到0.71左右。其损失曲线（图12）显示，大多数配置能相对稳定地收敛，尽管有些会出现振荡。这表明VQC的结构对于此类数据具有较好的适应性和可训练性。
SQNN潜力突出：SQNN取得了本次实验中的最高分，PauliFeatureMap + TwoLocal/RealAmplitudes组合的F1分数达到了0.84-0.85。其损失曲线（图13）也显示出有效的收敛。这说明对于BankSim这种模拟网络数据，通过量子采样提取概率分布特征，再经经典后处理，可能是一种非常有效的策略。
EQNN遭遇挑战：EQNN的整体表现不佳，最佳F1分数仅为0.59（Pauli + PauliTwoDesign），而使用ZFeatureMap（无纠缠）时，F1分数低至0.31。其损失曲线（图14）也显示收敛缓慢且最终损失值较高。这揭示了EQNN架构的难点：量子特征提取器与经典神经网络的联合训练可能非常困难，特别是当量子部分表达能力不足（如使用Z映射）时，提取的特征质量差，导致后续经典网络无法有效学习。

3.3.2 欧洲信用卡数据集上的表现

论文指出，在欧洲数据集上，VQC表现最佳，F1分数高达0.88。这很可能是因为该数据集特征已经是PCA处理后的线性无关成分，数据结构相对“干净”，更适合VQC这种端到端的优化方式。而SQNN和EQNN的表现相对逊色。这强调了数据集本身的特性对QML模型选择有决定性影响。

核心发现：没有“银弹”模型。VQC像一个稳健的全能选手，在不同数据集上表现相对稳定；SQNN在具有复杂关联的数据（如BankSim）上可能爆发出惊人潜力，但其性能对采样质量和后处理算法敏感；EQNN理论上有结合两者优点的潜力，但联合训练的复杂性使其在实践中难以调优，对特征映射（必须有纠缠）的要求也更高。

4. 关键影响因素与调优实战指南

基于上述实验结果，我们可以提炼出影响QML欺诈检测模型性能的几个最关键因素，并给出具体的调优建议。

4.1 特征映射与Ansatz的组合艺术

选择不是孤立的，特征映射和Ansatz需要协同考虑。

“强编码+强演化”组合：PauliFeatureMap（全纠缠）配合EfficientSU2或深层的TwoLocal，构成了表达力极强的组合。这种组合适合特征间存在复杂、高阶交互的数据集（如BankSim中的商户-客户网络关系）。但风险是电路过深，容易导致梯度消失（贫瘠高原）和过拟合。
“强编码+简约演化”组合：ZZFeatureMap（二阶纠缠）配合RealAmplitudes。ZZ映射提供了必要的特征关联编码，而RealAmplitudes结构相对简单、参数少，训练更稳定。这是在表达力和可训练性之间一个很好的折衷，往往是初次实验的推荐起点。
“简约编码+强演化”组合：ZFeatureMap（无纠缠）配合复杂的Ansatz。这种组合意义不大，因为编码阶段已经丢失了特征关联信息，后续再复杂的演化也难以找回。实验结果也证实，使用Z映射的模型性能普遍很差。
“简约编码+简约演化”组合：ZFeatureMap配合浅层RealAmplitudes。这是最轻量、最快的组合，适合在真实NISQ硬件上做可行性验证，或在数据线性可分性较强的简单任务中作为基线。

调优建议：从一个中等表达力的组合开始（如ZZFeatureMap(reps=1, entanglement=‘linear’)+EfficientSU2(reps=1)）。如果训练损失下降顺利但验证集性能不佳（欠拟合），可以尝试增加reps或改用PauliFeatureMap。如果训练损失剧烈振荡或根本不下降（可能遇到贫瘠高原），则应尝试简化电路：减少reps、改用RealAmplitudes、或尝试TwoLocal并减少纠缠层数。

4.2 应对量子噪声的鲁棒性策略

当前的量子硬件充满噪声。论文中对最优模型进行了五种类型量子噪声的鲁棒性测试，包括比特翻转、相位翻转、振幅阻尼等。结果显示，表现最好的模型在噪声下性能虽有下降，但仍保持了一定的竞争力。这为我们提供了重要启示：

选择噪声鲁棒性强的Ansatz：某些Ansatz结构天生对噪声更不敏感。例如，RealAmplitudes主要使用RY门和CNOT门，相比大量使用T门等易错门的结构，其在当前硬件上可能更稳定。PauliTwoDesign的设计也考虑了一定的抗噪性。
利用错误缓解技术：在训练和推理中，可以采用零噪声外推、测量错误缓解等技术来部分抵消噪声影响。Qiskit Runtime等平台已内置了一些此类功能。
电路编译优化：将逻辑电路映射到真实硬件的拓扑结构上时，不同的编译策略会影响最终的门数量和深度，从而影响噪声累积。需要尝试不同的布局和路由算法。
在模拟中引入噪声模型：在模拟阶段就使用带噪声的模拟器（如QasmSimulator配合NoiseModel）进行训练和评估，可以让模型在一定程度上“适应”噪声，筛选出在噪声环境下更鲁棒的超参数组合。

4.3 统计验证与超参数敏感性分析

除了看F1分数，论文还使用了方差分析（ANOVA）来统计验证不同因素（模型类型、数据集、特征映射、Ansatz）对性能影响的显著性。这是一种严谨的做法。

在实际调优中，我们也应该进行系统的超参数敏感性分析：

学习率/优化器参数：对于使用梯度下降的优化器，学习率至关重要。太大导致振荡，太小导致收敛慢。
Ansatz的重复次数：reps参数是控制电路深度和表达力的关键旋钮。通常从1开始，逐步增加，观察验证集性能的变化，找到拐点。
纠缠模式：‘linear’,‘circular’,‘full’等模式决定了量子比特之间的连接方式，会影响信息传递效率和电路复杂度。
测量方式：是测量所有量子比特的Z期望值，还是测量特定比特？对于多分类或复杂输出，测量策略需要精心设计。

避坑指南：如何监控和诊断训练过程
始终绘制损失曲线：这是判断训练是否健康的最直观工具。健康的曲线应平滑下降并逐渐趋于平稳。剧烈振荡可能意味着学习率太大或批处理大小不合适；过早平坦可能陷入局部最优或贫瘠高原。
跟踪验证集性能：每训练一定轮次，就在验证集上计算F1分数。如果训练损失下降但验证集F1分数不升反降，很可能过拟合了，需要简化模型或增加数据。
计算参数梯度范数：在训练初期，可以计算参数梯度的范数。如果它指数级地接近于零（例如小于1e-10），那么很可能遇到了贫瘠高原，需要重新初始化参数或改变Ansatz结构。
使用不同的随机种子：量子电路参数的初始化和数据的洗牌都是随机的。用多个随机种子运行实验，可以确保性能的稳定性，排除偶然性。

量子机器学习在金融欺诈检测中的应用还处于早期阶段，但我们的实验已经清晰地展示了其潜力和独特的挑战。VQC的稳健性、SQNN在特定数据上的优越性，以及不同组件组合带来的性能差异，都为后续研究和工程实践提供了宝贵的路标。未来的方向将集中在设计更高效的、针对金融数据时序性和图结构特性的量子编码方案，开发更易于训练的混合量子-经典架构，以及推动算法在真实含噪声量子硬件上的部署与优化。这条路虽然漫长，但每一次严谨的实验对比和性能分析，都在为最终实现量子计算在金融风控领域的实用化铺平道路。

查看全文

http://www.jsqmd.com/news/878698/