当前位置：首页 > news >正文

量子机器学习数据集构建：从核心要素到工程实践

news 2026/7/18 8:00:59

1. 量子机器学习数据集构建：从分类到实践的核心思路

量子机器学习（QML）这个领域，现在就像十年前的深度学习，概念很热，但真正能上手、能复现、能出成果的“基础设施”还非常稀缺。我接触过不少从经典机器学习转过来的研究员和工程师，大家最头疼的不是量子力学公式有多难，而是找不到一个“像MNIST或ImageNet那样”的标准量子数据集来练手和验证想法。没有高质量、易获取、定义清晰的数据，再精妙的算法也只是空中楼阁。

这正是构建量子机器学习数据集的核心价值所在。它不仅仅是提供一堆数据点，更是为整个QML社区建立一套共同的语言、基准和实验平台。从我的实践经验来看，一个好的QML数据集，必须跨越两个世界的鸿沟：既要能被量子物理学家理解和信任，其数据生成过程符合物理原理；又要能被机器学习工程师方便地使用，格式友好，能无缝接入PyTorch或TensorFlow的训练流程。这其中的挑战，远比单纯生成经典数据要大得多。

为什么这么说？因为量子数据的本质是概率性的。你无法像读取一张图片的像素值那样，直接“看到”一个量子比特的状态。你能获取的，只是通过大量重复测量得到的统计分布。这意味着，数据集里存储的“数据”，本身就已经是经过了一层经典信息处理（测量）的间接结果。如何设计数据集，才能既保留底层量子系统的关键特征（如纠缠、相干性），又能为经典优化算法提供有效的训练信号，是设计时需要考虑的首要问题。

基于这个核心矛盾，当前QML的研究目标可以清晰地划分为四个象限，这为我们构建数据集提供了明确的方向指引。理解这个分类，是动手前的第一步。

1.1 QML的四大目标象限：数据与算法的交叉矩阵

在规划数据集之前，我们必须先想清楚：这个数据集最终要用来解决哪类问题？根据处理的数据类型（经典/量子）和使用的计算范式（经典算法/量子算法），QML的研究可以画成一个2x2的矩阵：

第一象限：经典机器学习处理经典数据。这是传统机器学习的范畴，与量子无关。但它是重要的性能基准。任何声称有量子优势的算法，最终都应该在某些任务上超越这个象限的经典方法。

第二象限：经典机器学习处理量子数据。这是目前最务实、也最活跃的领域，也是我们构建数据集的主要服务对象。它的核心是，利用成熟的经典机器学习工具（如神经网络、梯度下降）来解决量子领域本身的问题。例如：

量子电路合成与优化：给定一个目标量子门操作，让机器学习模型自动搜索出实现该操作的高效量子电路序列。
量子态层析：从有限的测量数据中，重建出未知的量子态（密度矩阵）。
量子噪声表征与抑制：通过分析系统的测量输出，识别噪声来源并设计纠正方案。
量子系统控制：为复杂的量子实验（如离子阱、超导量子比特）设计最优的控制脉冲序列。

注意：这个象限的成功，高度依赖于数据集能否将量子系统的复杂行为“翻译”成经典机器学习模型能有效学习的特征。数据集不仅要包含最终的测量结果，往往还需要包含系统演化的中间信息（如哈密顿量、时间演化算符），这些“隐藏变量”对于训练出具有物理可解释性的模型至关重要。

第三象限：量子算法处理经典优化问题。这是大家常说的“量子机器学习算法”，例如量子神经网络、量子支持向量机等。目标是利用量子计算机的并行性等潜在优势，加速解决经典的机器学习任务，如图像分类、组合优化。这个象限对数据集的要求反而“经典”——输入是经典数据（如图像向量），但需要编码到量子态上（称为量子特征映射）。

第四象限：量子算法处理量子问题。这是量子计算的“圣杯”，例如在量子计算机上直接模拟量子化学系统。它需要纯正的量子数据输入和量子算法处理，对错误率要求极高，目前主要处于理论研究和小规模原理验证阶段。

我们构建的数据集，其首要定位是服务于第二象限。原因很现实：目前我们还没有大规模、容错的通用量子计算机（FTQC），而含噪声中等规模量子（NISQ）设备的能力有限。因此，在经典计算机上模拟生成量子数据，并用强大的经典机器学习模型进行分析和优化，是当前最具可行性和实用价值的技术路径。这也能最大程度地降低机器学习研究者进入QML领域的门槛。

明确了目标，接下来就要解决一个更具体的问题：一个面向QML、尤其是第二象限应用的数据集，到底应该长什么样？它需要包含哪些要素才能既通用又实用？

2. 量子数据集的核心要素与设计原则

设计一个量子数据集，不能只想着“生成一些量子态”。你需要像设计一个产品一样，考虑它的用户（机器学习研究者）、使用场景（算法训练与测试）以及长期生态（社区协作与基准测试）。我从头构建过几个用于特定量子控制任务的数据集，踩过不少坑，总结下来，一个优秀的、具有长期价值的数据集必须系统性地考虑以下八个维度。

2.1 目标定义：从模糊需求到具体任务

数据集不是凭空产生的，它必须服务于一个或多个明确的机器学习任务。在项目启动时，就要像定义产品需求一样定义数据集的目标。

分类任务：例如，根据测量数据判断量子系统处于哪种类型的纠缠态（GHZ态、W态等），或者识别噪声类型（退相位噪声、振幅阻尼噪声）。
回归任务：例如，根据初始态和控制脉冲序列，预测最终量子态的保真度；或根据部分测量结果，预测哈密顿量的某个参数。
生成任务：例如，学习量子态或量子电路的分布，用于生成新的、符合物理约束的样本。
优化任务：例如，为变分量子算法（VQE、QAOA）提供损失函数景观的基准测试数据。

在构建我们的示例数据集时，我们将其核心目标定义为：为量子系统控制（特别是含噪声环境下的控制）提供训练数据，用于开发经典机器学习模型，以实现高保真度的量子态制备与操作。这个目标直接决定了后续所有特征的选择。

2.2 数据描述与表征：让数据“会说话”

一份只有数据文件而没有详细文档的数据集是几乎无法使用的。描述必须足够充分，让一个不熟悉你具体物理模型的研究者也能理解数据的含义。

理论背景：必须清晰说明数据生成的物理模型。例如：“本数据集基于横场伊辛模型（Transverse Field Ising Model）生成，系统哈密顿量为 H = -J Σ⟨i,j⟩ σ^z_i σ^z_j - h Σ_i σ^x_i，其中 J=1.0，h 在 [0.5, 2.0] 区间内均匀采样。”
数据格式与结构：明确说明每个数据文件的组织方式。推荐使用层次化的格式（如HDF5）或标准张量格式。
- 示例：一个数据样本可能包含以下键值对：
  - initial_state: 形状为 (2^n,) 的复数向量，表示初始量子态。
  - hamiltonian_params: 字典或数组，记录生成哈密顿量的所有参数。
  - control_pulse: 形状为 (T, m) 的数组，表示T个时间步长、m个控制通道的脉冲序列。
  - final_state_density_matrix: ��状为 (2^n, 2^n) 的复数矩阵，表示演化后的密度矩阵（理想情况）。
  - measurement_results: 形状为 (num_shots, n) 的整数数组，表示多次投影测量得到的结果（0或1）。
  - noise_profile: 字典，描述施加的噪声类型和强度参数（如退相干时间 T1, T2）。
元数据：为整个数据集提供全局信息，如量子比特数 n、采样参数范围、模拟的数值精度（单精度/双精度）、使用的模拟器版本等。

2.3 训练集、验证集与测试集的科学划分

这是机器学习数据集设计的黄金法则，在量子领域同样重要，且更具挑战性。划分不当会导致模型过拟合或泛化能力极差。

划分策略：必须严格隔离训练集、验证集和测试集，确保它们来自不同的数据分布区域。对于量子系统，一个常见的陷阱是：如果所有数据都由同一组固定的哈密顿量参数生成，模型可能只是记住了这些特定参数下的解，而无法推广到新的参数。
我们的实践：我们采用“参数空间划分法”。将哈密顿量或噪声的参数空间进行网格划分，随机选取其中80%的网格点对应的模拟数据作为训练集，10%作为验证集，10%作为测试集。这样可以确保模型在“未见过的”系统参数上进行测试。
泛化性与特征平滑：量子系统的希尔伯特空间随比特数指数增长，数据极易稀疏。我们有意在数据生成时引入了“特征平滑”技术。例如，对于控制脉冲优化任务，我们不仅生成最优脉冲，还生成一系列次优但不同的脉冲及其对应的保真度。这样做的目的是防止模型只关注那些非常特殊、信息量极大但罕见的“完美解”，而是学习到更平滑、更通用的控制策略规律。

2.4 数据精度与类型：平衡精度与效率

量子模拟涉及大量复数矩阵运算，对计算精度和存储开销敏感。

数值精度：大部分量子态演化模拟使用双精度浮点数（float64/complex128）是必要的，以确保数值稳定性。然而，最终提供给机器学习模型的数据，可以考虑根据任务需求进行降精度。例如，对于分类任务，float32可能就足够了，这能大幅减少存储和内存开销，加快训练速度。我们的数据集同时提供了float64和float32两种版本。
数据类型与结构：为了最大化兼容性，我们选择使用最基础的、跨平台的工具。数据核心使用NumPy的ndarray进行存储（.npy格式或.npz压缩格式）。所有张量（量子态向量、算符矩阵）都遵循NumPy的轴约定。避免使用特定量子模拟包（如QuTiP）的内置对象格式进行存储，尽管我们在生成数据时用它们进行验证。因为NumPy是Python生态的基石，几乎所有机器学习框架（PyTorch, TensorFlow, JAX）和量子计算框架（Qiskit, Cirq, PennyLane）都能无缝读取NumPy数组。

2.5 数据结构化：构建信息丰富的特征体系

一个“丰富”的数据集，其价值远大于一个“庞大”的数据集。结构化意味着系统地组织不同层次的信息。

我们的数据集采用了分层的信息结构：

系统层：描述被模拟的量子系统本身。包括系统尺寸（比特数）、基础哈密顿量类型（如海森堡模型、分子电子结构哈密顿量）、系统参数。
控制层：描述如何操控系统。包括控制哈密顿量的形式、控制脉冲的形状（方波、高斯波、DRAG脉冲等）、脉冲的时间分辨率和幅度范围。
演化层：描述系统随时间的变化。这里我们不仅提供初态和末态，还提供了中间时刻的“快照”（例如，每隔一定演化时间保存一次量子态或可观测量期望值）。这些时间序列数据对于训练循环神经网络或Transformer类模型来理解动力学至关重要。
噪声层：描述环境的影响。这是现实世界量子计算的核心。我们模拟了多种噪声模型：
- 退相位噪声：模拟量子相干性的衰减。
- 振幅阻尼噪声：模拟能量耗散。
- 控制误差：模拟脉冲幅度和时间的随机抖动。
- 串扰：模拟比特间的不期望耦合。对于每种噪声，我们都记录其类型和关键参数（如T1， T2时间），并将“干净”数据和“含噪”数据配对存储，方便研究噪声鲁棒性算法。
测量层：描述如何从量子系统中提取经典信息。包括测量基（Pauli X, Y, Z基）、测量次数（shots），以及原始的测量结果（0/1比特串）和统计结果（如期望值⟨X⟩, ⟨Y⟩, ⟨Z⟩）。

2.6 维度诅咒与降维策略

量子系统的状态空间维度是 2^n，n为比特数。即使n=10，维度也已超过1000。直接使用密度矩阵（维度为2^n × 2^n）作为机器学习模型的输入是灾难性的，会立即陷入维度诅咒。

我们的应对策略是进行智能的预处理和特征工程：

使用经典表示：不直接使用量子态向量或密度矩阵，而是使用从量子态中提取的经典特征。例如：
- 可观测量期望值：⟨X⟩, ⟨Y⟩, ⟨Z⟩ 对于每个量子比特，以及两比特关联函数 ⟨X_i X_j⟩ 等。这能将维度从指数级降低到多项式级（O(n^2)）。
- 纠缠熵、纯度等量子信息度量。
- 量子态在特定基下的概率分布。
主成分分析（PCA）与自动编码器：对于更高维的特征，我们提供经过PCA降维后的版本。同时，我们也鼓励用户使用量子-经典混合的自动编码器来学习量子数据的高效低维表示。
提供多粒度数据：我们提供“原始数据”（高维量子态）和“预处理特征”（低维经典量）两种版本。高级用户可以使用原始数据探索新的表征学习方法，而入门用户可以直接使用预处理特征快速搭建基准模型。

2.7 预处理流程：从原始模拟到可用数据

原始量子模拟输出不能直接扔给机器学习模型。一个标准化的预处理流程包括：

数据清洗：检查并剔除模拟失败（如数值发散）的数据点。
归一化/标准化：将控制脉冲的幅度、时间等参数缩放到固定的区间（如[-1, 1]），以利于模型训练。
数据增强：对于量子数据，合理的增强方式有限，但并非没有。例如，对于具有对称性的系统（如自旋链的平移对称性），可以通过对称变换生成新的训练样本。对于测量数据，可以通过重采样（bootstrapping）来模拟不同测量次数下的统计波动。
格式转换：将数据转换为PyTorch的Dataset/DataLoader或TensorFlow的tf.data.Dataset对象，并提供示例代码。这一步极大地提升了数据集的易用性。

2.8 “可见”与“隐藏”数据：提供物理洞察的钥匙

这是量子数据集区别于经典数据集最独特的一点。在量子系统中，有些量是直接可观测的（即“可见”数据，如测量结果的统计频率），有些量则是无法直接观测但物理上真实存在的（即“隐藏”数据，如系统的精确量子态、完整的哈密顿量）。

一个优秀的数据集应该同时提供这两类数据。

可见数据：模拟实验测量结果。这是算法在实际量子硬件上唯一能获取的东西。
隐藏数��：模拟的“地面真值”。例如，在量子态层析任务中，提供作为真值的完整密度矩阵；在噪声表征任务中，提供注入噪声的真实参数。

这样设计的好处是：研究者可以用“可见数据”作为输入来训练模型，然后用“隐藏数据”作��标签来评估模型的性能。这为开发新的层析、表征和推断算法提供了完美的测试平台。在我们的数据集中，每一个样本都包含了这种“输入-真值”配对。

3. 从理论到实践：构建QDataSet的方法论与实操

理解了设计原则，我们来看一个具体的构建实例。我将以我们团队构建的一个用于“含噪声量子控制”的数据集（姑且称之为QDataSet-NoiseCtrl）为例，拆解从物理建模到数据落地的完整流程。这个过程涉及量子物理、数值计算和软件工程的交叉。

3.1 物理模型与系统定义：从哈密顿量出发

一切始于对所要模拟的量子系统的精确定义。我们选择了一个具有代表性且足够复杂的模型：一个由超导量子比特构成的一维链，并考虑最近邻耦合和局域控制场。

核心哈密顿量：总哈密顿量 H_total(t) 由三部分组成：

系统哈密顿量 (H_s)：描述量子比特自身的能量和静态耦合。H_s = Σ_i (ω_i / 2) σ^z_i + Σ_<i,j> J_ij (σ^x_i σ^x_j + σ^y_i σ^y_j)其中，ω_i 是第i个量子比特的能隙（从高斯分布中采样，模拟制造误差），J_ij 是比特i和j之间的耦合强度（随距离衰减）。
控制哈密顿量 (H_c)：描述我们通过外部微波脉冲施加的控制。H_c(t) = Σ_i [Ω_xi(t) σ^x_i + Ω_yi(t) σ^y_i]Ω_xi(t) 和 Ω_yi(t) 是第i个量子比特在X和Y方向上的控制脉冲幅度，它们是时间的函数。
噪声哈密顿量 (H_n)：描述环境的影响。我们采用一个简化的模型，将噪声视为对控制场的随机扰动和能量弛豫。H_n(t) = H_c(t) * (1 + η(t)) + H_diss其中η(t)是时间相关的随机噪声（如高斯白噪声），H_diss 通过Lindblad算符形式引入振幅阻尼和退相位。

为什么选择这个模型？

现实性：它抓住了超导量子比特平台的关键物理要素（非均匀频率、近邻耦合、独立XY控制）。
复杂性：它包含了导致控制困难的典型因素（串扰、频率拥挤），使得优化问题非平凡。
可扩展性：模型参数（比特数、耦合拓扑、噪声谱）易于调整，可以生成不同难度级别的数据。

3.2 数值模拟与数据生成：在经典计算机上“运行”量子实验

我们使用Python生态进行模拟，核心工具是NumPy和SciPy，并用QuTiP进行交叉验证。

步骤一：定义演化与求解对于封闭系统部分，我们需要求解含时薛定谔方程。由于控制脉冲Ω(t)是任意的，我们采用时间切片法进行数值积分。

import numpy as np from scipy.linalg import expm def evolve_state(initial_state, hamiltonian_func, time_points, controls): """ 数值演化量子态 initial_state: 初始态向量 hamiltonian_func: 函数，输入时间t和controls，返回该时刻的哈密顿量矩阵 time_points: 时间点数组 [t0, t1, ..., tN] controls: 控制参数字典 """ state = initial_state.copy() dt = time_points[1] - time_points[0] for i in range(len(time_points)-1): t = time_points[i] H = hamiltonian_func(t, controls) # 构建t时刻的哈密顿量 # 使用指数积分子的一阶近似（对于小dt足够精确） U = expm(-1j * H * dt) state = U @ state # 可选：在此处保存中间态，作为时间序列数据 if i % save_interval == 0: save_intermediate_state(state, i) return state

对于开放系统（包含噪声），我们采用了量子轨迹蒙特卡洛方法，而不是直接求解主方程。这是因为主方程求解计算量巨大，且我们的噪声模型相对简单。蒙特卡洛方法通过模拟大量随机的“量子跳跃”轨迹，再对结果进行统计平均，来近似耗散效应。这种方法虽然需要更多采样，但更易于实现和理解，也便于机器学习研究者把握噪声的统计性质。

步骤二：生成控制脉冲控制脉冲Ω(t)是我们优化的对象，也是数据集的关键特征。我们生成了多种类型的脉冲：

简单脉冲：方波、高斯波、三角函数波。作为基线。
GRAPE脉冲：使用梯度算法优化出的高性能脉冲。作为“高质量”样本。
随机脉冲：在参数空间随机采样的脉冲序列。用于探索广阔的脉冲空间。
含误差脉冲：在优化脉冲基础上加入随机抖动和失真，模拟实际实验的不完美性。

每种脉冲都以其参数（如幅度序列、持续时间）的形式存储在数据集中。

步骤三：模拟测量过程量子计算的结果必须通过测量才能读出。我们模拟了最常用的投影测量。

对演化后的量子态ρ，计算某个泡利算符（如σ^z）的期望值：<Z> = np.trace(rho @ sigma_z)。这是无噪声情况下的理想值。
模拟有限次测量（如shots=1000）：根据量子力学概率，P(0) = <0|ρ|0>，P(1) = <1|ρ|1>。然后进行shots次伯努利采样，得到一串0和1的序列。
计算统计频率：frequency_of_1 = (count_of_1) / shots。数据集里同时保存了理想期望值和有限次测量得到的统计频率，让使用者能对比理想与统计的差异，并研究测量次数对算法性能的影响。

3.3 数据打包与组织：构建易于使用的数据管道

生成海量数据后，如何组织是关键。我们采用以下结构：

QDataSet-NoiseCtrl/ ├── README.md # 完整的数据集说明文档 ├── metadata.json # 全局元数据（比特数、参数范围、版本等） ├── train/ │ ├── data_0000.h5 # 每个文件包含多个样本 │ ├── data_0001.h5 │ └── ... ├── val/ # 验证集，结构同train ├── test/ # 测试集，结构同train └── utils/ ├── load_dataset.py # 数据加载工具函数 ├── example_training.ipynb # PyTorch/TF训练示例 └── visualize_data.ipynb # 数据可视化示例

每个.h5文件内部采用层次化结构存储单个样本：

# 伪代码示意HDF5结构 with h5py.File('data_0000.h5', 'r') as f: sample = f['sample_001'] initial_state = sample['initial_state'][:] # 复数向量 hamiltonian_params = json.loads(sample['hamiltonian_params'].asstr()[()]) control_pulse = sample['control_pulse'][:] # 形状 (T, m) final_state_ideal = sample['final_state/ideal'][:] # 密度矩阵 final_state_noisy = sample['final_state/noisy'][:] # 含噪密度矩阵 measurements = sample['measurements/shots_1000'][:] # 1000次测量结果 noise_params = json.loads(sample['noise_params'].asstr()[()])

我们提供了load_dataset.py脚本，它返回标准的torch.utils.data.Dataset对象，用户可以直接在PyTorch中使用DataLoader进行批加载，极大简化了使用流程。

3.4 与主流量子平台集成：确保互操作性

数据集的生命力在于其被使用的广泛程度。我们确保生成的数据格式能与主流量子机器学习平台无缝对接。

Qiskit / Cirq：我们的量子态向量和算符矩阵可以很容易地转换为Qiskit的Statevector、DensityMatrix对象或Cirq的电路输入。我们提供了示例脚本，展示如何将我们的数据加载到这些框架中，用于构建变分量子电路（VQC）或进行进一步的模拟。
PennyLane：PennyLane是一个专注于量子机器学习的库。我们的数据可以自然地作为其qnode的输入。我们特别提供了与PennyLane兼容的数据加载器，方便用户进行混合经典-量子模型的训练。
TensorFlow Quantum (TFQ) / PyTorch：由于数据底层是NumPy数组，可以零成本转换为tf.Tensor或torch.Tensor。我们为TFQ提��了将控制脉冲参数转换为cirq.Circuit的实用函数，以便在TensorFlow的图模式下进行梯度计算。

这种设计哲学是：数据集保持底层（NumPy）的简洁性和通用性，通过工具函数和示例向上兼容各个高级框架，而不是将自己绑定在某个特定框架上。

4. 常见挑战、陷阱与实战心得

构建和使用的过程中，我们遇到了无数坑。这里分享一些最典型的挑战和解决方案，希望能帮你节省大量时间。

4.1 数值稳定性：量子模拟的“阿喀琉斯之踵”

量子模拟涉及大量小数值的指数运算和矩阵乘法，极易出现数值误差累积或下溢/上溢。

问题：模拟长时序演化或深电路时，量子态的归一化（迹为1）会因数值误差而轻微破坏，导致后续计算（如保真度）完全失真。
解决方案：
1. 使用高精度：全程使用np.float64和np.complex128。虽然慢，但必要。
2. 定期重新归一化：在演化过程中，每隔若干步，手动对态向量进行重新归一化：state = state / np.linalg.norm(state)。
3. 使用专用库：对于非常复杂的开放系统，考虑使用QuTiP的mesolve函数，它内置了更稳健的数值积分器。
4. 验证保真度：生成数据后，计算初态与通过演化算符重构的末态之间的保真度，理论上应为1。设置一个容差（如1e-10），丢弃不满足条件的数据点。

4.2 数据的“真实性”与“复杂性”权衡

在经典计算机上模拟量子数据，我们拥有“上帝视角”，可以知道一切“隐藏变量”。但这可能让数据变得“太干净”，导致训练出的模型在实际噪声更大的硬件上失效。

心得：必须注入足够多样和真实的噪声。不要只加简单的高斯白噪声。参考真实硬件的数据手册（如IBM Quantum Experience的backend properties），模拟T1、T2弛豫时间、单量子比特门误差、测量误差、串扰等。我们的做法是，为每种噪声参数定义一个合理的分布（如T1服从均值为50μs，标准差为10μs的对数正态分布），然后在生成数据时从这个分布中采样。这样，数据集本身就包含了噪声参数的波动，迫使模型学习更鲁棒的特征。

4.3 数据规模与计算成本的博弈

高保真度的量子模拟极其耗资源。一个包含1000个样本、10比特、1000个时间步长的数据集，在标准工作站上可能需要数天甚至数周来生成。

策略：
1. 分层采样：不要对所有参数组合进行均匀网格采样。使用拉丁超立方采样或基于物理直觉的重要性采样，用更少的样本覆盖参数空间的关键区域。
2. 利用对称性：如果系统具有对称性（如自旋反转对称性），生成一个样本后，可以通过对称操作自动生成更多样本，实现数据增强。
3. 提供多分辨率数据：先生成一个较小的、低时间分辨率的“快速原型”数据集供算法开发和调试。再提供一个完整的、高分辨率的“生产级”数据集用于最终评估。
4. 分布式生成：将模拟任务参数化，使用像Ray或Dask这样的框架分发到计算集群上并行运行。

4.4 评估指标的选择：什么才是“好”的QML模型？

在经典ML中，我们有准确率、F1分数等标准指标。在QML中，评估指标必须与物理目标对齐。

量子态保真度：F(ρ, σ) = [Tr( sqrt( sqrt(ρ) σ sqrt(ρ) ) )]^2。这是比较两个量子态接近程度的黄金标准。对于纯态，简化为|⟨ψ|φ⟩|^2。
门保真度：对于量子电路或控制任务，计算目标酉矩阵U与实际实现的酉矩阵V之间的平均保真度：F_avg = ∫ dψ |⟨ψ|U†V|ψ⟩|^2。有闭合计算公式可用。
经典预测误差：对于回归任务（如预测哈密顿量参数），使用均方误差（MSE）或平均绝对误差（MAE）。
样本效率：一个重要的评估维度是，模型需要多少训练数据（或对量子系统的查询次数）才能达到某个性能指标。这在实验成本高昂的量子领域尤为重要。
在测试集上的泛化能力：务必在完全独立的测试集（来自参数空间的不同区域）上报告性能。在训练集上过拟合在QML中非常容易发生。

4.5 给初学者的入门建议

如果你刚进入QML领域，想利用现有数据集或构建自己的第一个小数据集，我的建议是：

从“玩具模型”开始：不要一开始就挑战10比特系统。从2-4个量子比特的简单模型开始，例如一个带有噪声的双量子比特纠缠门（如CNOT门）的优化。这样你可以快速验证整个流程，并直观地理解数据和结果。
使用现成的高级框架：在构建自己的模拟器之前，先使用PennyLane或Qiskit的Aer模拟器。它们提供了高级API，能让你专注于机器学习部分，而不是数值微分方程的细节。
可视化，可视化，再可视化：量子数据是抽象的。一定要将你的数据可视化。例如，绘制控制脉冲的形状、量子态在布洛赫球上的轨迹、测量结果的分布直方图、损失函数随训练轮次的变化曲线。这能帮你建立物理直觉，并快速发现数据或代码中的问题。
复现经典结果：在尝试新想法前，先在一个已知的、有经典解的小问题上复现结果。例如，用你的机器学习模型去学习一个已知的最优控制脉冲。这能验证你的数据管道和训练流程是正确的。

构建量子机器学习数据集是一项桥梁性的工作，它连接着抽象的量子理论和具体的算法工程。这个过程充满挑战，但也极具价值。一个设计精良的数据集，就像一块坚实的基石，能让更多的研究者站上去，共同推动QML这座大厦向上生长。最终，我们的目标不仅是生成数据，更是通过数据，催生出真正能解决量子技术中实际难题的智能算法。

查看全文

http://www.jsqmd.com/news/875550/