当前位置：首页 > news >正文

自回归神经网络在量子态建模中的原理与应用

news 2026/6/29 15:06:24

自回归神经网络（Auto-regressive Neural Network, ARNN）是一种特殊的深度学习架构，它通过链式法则将高维联合概率分布分解为一系列条件概率的乘积。对于长度为N的比特串n=(n₁,n₂,...,n_N)，其概率分布可以表示为：

P(n) = ∏_{q=1}^N P(n_q|n₁,...,n_{q-1})

这种分解方式使得ARNN天然满足概率归一化条件，即∑P(n)=1。在量子态重构的背景下，每个比特串n对应量子态在计算基下的一个特定构型，P(n)则表示测量得到该构型的Born概率|⟨n|Ψ⟩|²。

关键优势：相比传统受限玻尔兹曼机(RBM)等模型，ARNN不需要额外的归一化常数计算，这使其在量子态概率建模中具有独特的效率优势。

在训练ARNN建模量子态概率分布时，我们最小化数据分布P_data与模型分布P_α之间的KL散度：

D_KL(P_data∥P_α) = ∑ P_data(n) log[P_data(n)/P_α(n)]

其梯度计算简化为： ∂D_KL/∂α_k ≈ -1/|S| ∑_{n∈S} ∂logP_α(n)/∂α_k

这里S是从训练数据中采样的批次。这种优化方式实际上是在最大化训练数据的似然函数。值得注意的是：

分子系统的量子态需要满足特定的物理约束，如：

传统方法通常通过投影操作强制实施这些约束，但这会降低网络表达能力。ARNN采取了一种更巧妙的策略：

实验表明，这种"先探索后筛选"的方法比硬性约束更有效，尤其在处理强关联体系时能保持网络的表达能力。

温度缩放是调节概率分布形状的关键技术，它通过引入逆温度参数β重新定义分布：

P(n) → P(n)^β / (∑ P(n')^β)

对于ARNN，温度缩放可以两种方式实现：

全局缩放（公式8）：

局部缩放（公式9）：

实测数据：在C₂H₂分子测试中，β=0.4能最佳平衡主导构型与次要构型的采样比例（见图4）。β=1恢复原始分布，β→0趋向均匀分布。

结合温度缩放，ARNN采用以下策略提升采样效率：

初始化：
- 输入初始近似态|Ψ_init⟩（如HF、CISD或精确态采样）
- 设置目标子空间维度NU=2N_CA（N_CA是达到化学精度所需构型数）
ARNN训练：
- 从|Ψ_init⟩采样构型作为训练数据
- 可选应用β₀温度缩放增强数据
- 使用Adam优化器训练ARNN
构型采样：
- 从ARNN生成NN个样本
- 应用温度缩放（初始β≈0.4-0.8）
- 保留满足对称性的NU个唯一构型
子空间对角化：
- 在选定构型张成的子空间内精确对角化
- 输出新的近似态|Ψ_new⟩
迭代优化：
- 以|Ψ_new⟩作为新的|Ψ_init⟩
- 必要时增大网络规模和训练样本数
- 重复直至能量收敛

在C₂H₂（STO-3G基组）测试中（图5）：

不同初始化的收敛速度：
- HF初始化+温度缩放：快速接近化学精度
- CISD初始化（无缩放）：收敛缓慢
- 精确态采样：样本数N_N^(0)≥1.4×10^5时表现最佳
温度缩放效果：
- 使CISD曲线收敛速度提升5倍
- 帮助HF初始化超越小样本精确态采样
构型填充分析（图7）：
- 最终所有方法都能较好覆盖重要构型
- 但精确态大样本初始化填充更均匀

H₂O（6-31g基组）：
- N_CA=2000，NU=4000
- 无NU限制时，HF/CISD初始化表现优异
- 受限情况下需精确态采样支持
C₂H₄（STO-3G基组）：
- 展示了对更大体系（28个自旋轨道）的适用性
- 温度缩放对初始构型探索至关重要
C₂（6-31g基组）：
- 最大测试体系（36个自旋轨道）
- 子空间占比低至7.89×10^-4（对称性约束空间）
- 验证方法对高维问题的可扩展性