当前位置：首页 > news >正文

多极球谐函数：统一机器学习势函数描述符的数学基石

news 2026/7/22 11:50:35

1. 项目概述：从原子环境到机器学习势函数

在材料科学和计算化学领域，我们这些做模拟的人，每天都在和原子打交道。一个核心的挑战是：如何让计算机“理解”一个由几十、几百甚至上万个原子构成的复杂体系，并准确预测它的能量、受力、应力乃至更复杂的电子性质？传统的第一性原理方法，比如密度泛函理论（DFT），精度虽高，但计算成本巨大，通常只能处理几百个原子、几个皮秒的模拟，对于研究相变、缺陷动力学或长时间尺度的过程，常常力不从心。

过去十几年，机器学习势函数（MLP）的出现，彻底改变了游戏规则。它的核心思想很直观：用大量但有限的高精度量子力学计算结果作为“教材”，训练一个机器学习模型，让它学会从原子构型直接预测我们关心的物理量。这样一来，我们就能以接近经典力场的速度，获得接近量子力学的精度。我自己在构建和调试这类模型时，最深的一个体会是：整个模型的成败，几乎在第一步就决定了——你如何用一组数学特征（即描述符或指纹）来“描述”一个原子周围的局部化学环境。

想象一下，你是一个原子，周围环绕着邻居。描述符的任务，就是把你这“一亩三分地”的几何和化学信息，转化成一个固定长度、对旋转、平移、原子置换等对称操作保持不变的数学向量。这个向量，就是后续机器学习模型的输入。早期大家各显神通，提出了功率谱（Powerspectrum）、双谱（Bispectrum）、SOAP（Smooth Overlap of Atomic Positions）核等一系列描述符。它们看起来形式各异，推导过程也往往复杂，涉及到一堆球谐函数和克莱布什-高登系数，让人望而生畏。我在复现这些方法时，经常被各种下标和变换规则搞得晕头转向，不禁会想：这些看似不同的描述符背后，有没有一个更本质、更统一的数学框架？

答案是肯定的。多极球谐函数（Multipolar Spherical Harmonics, MultiSHs）就是这个框架的基石。它不是一个新发明的函数，而是球谐函数向多体（多点）情况的自然推广。这个工作的核心价值在于，它告诉我们：所有主流描述符的对称性性质（旋转、反演不变性/协变性）以及它们之间的内在联系，并不依赖于你具体用什么函数（比如高斯函数还是δ函数）去刻画原子密度，而是完全由你选择的展开基组——也就是MultiSHs——的数学性质所决定。这就像搭积木，无论你用木头还是塑料做积木块（原子密度），只要积木块的接口（基组的正交性和变换规则）是统一的，你就能用同一套逻辑（MultiSHs框架）搭出各种形状的房子（描述符）。本文将带你深入这个“以基组为中心”的视角，拆解如何从MultiSHs出发，像搭积木一样，系统性地构建、理解并简化从SOAP核到线性原子簇展开（ACE）等一系列模型。无论你是刚入门的新手，还是想深化理解的从业者，这个框架都能帮你拨开迷雾，看清本质。

2. 核心思路拆解：为什么是基组，而不是密度？

在深入数学细节之前，我们得先理清一个关键的逻辑转变。传统构建描述符的思路，往往是“自底向上”的：先定义一个具体的原子邻域密度函数 ρᵢ(𝐫)，然后把它在球谐函数和径向基上展开，得到展开系数 cᵢ, nlm。接着，我们拿这些系数做各种组合（比如功率谱是系数与其共轭的收缩，双谱涉及三个系数的耦合），并费力地去证明这些组合满足旋转不变性。

这个过程当然有效，但它把两个问题混在了一起：1)密度函数的具体形式（是高斯峰还是δ函数？截断函数怎么选？）；2)描述符的对称性来源。MultiSHs框架的核心洞见在于，它将这两个问题彻底解耦。它采取了一种“自顶向下”的视角：

核心观点：描述符的所有对称性，都继承自其展开所依赖的多体基组（MultiSHs）的固有性质，而与密度函数 ρ(𝐫) 的具体数学形式无关。

这意味着什么？意味着只要我们选择MultiSHs作为基组，那么由它展开得到的任何量，其旋转、反演等变换行为，就已经被MultiSHs的数学性质“编码”好了。我们不需要每次都对一堆具体的 cᵢ, nlm 做复杂的张量变换证明，只需要利用MultiSHs的现成性质即可。

2.1 原子密度与多体密度积：一切描述的起点

虽然具体形式不重要，但我们仍需一个起点。通常，中心原子 i 的局部原子密度定义为：

ρᵢ(𝐫) = Σⱼ f_cut(rⱼᵢ) g_ZᵢZⱼ(𝐫 - 𝐫ⱼᵢ)

这里，𝐫ⱼᵢ = 𝐫ⱼ - 𝐫ᵢ 是邻居原子 j 相对于中心原子 i 的位置矢量。g_ZᵢZⱼ 是局域化函数，常取高斯函数或δ函数，并可依赖于原子种类 Z。f_cut 是截断函数，保证在截断半径 r_cut 处平滑趋于零，这是确保描述符具有短程性和连续性的关键技巧，能显著提升模型数值稳定性。

这个密度函数在球坐标下，可以被展开为径向基函数 R_nl(r) 和球谐函数 Y_l^m(θ, φ) 的乘积：

ρᵢ(𝐫) = Σ_{nlm} cᵢ, nlm R_nl(r) Y_l^m(𝐫̂)

展开系数 cᵢ, nlm 由重叠积分给出。如果 g 取δ函数，系数就简化为对邻居的求和：cᵢ, nlm = Σⱼ f_cut(rⱼᵢ) R_nl(rⱼᵢ) Y_l^{m*}(𝐫̂ⱼᵢ)。计算系数的时间复杂度与邻居原子数成线性关系，这是该方法能应用于大体系的前提。

然而，真正的魔法发生在当我们考虑ν-体密度积时：

ρ^{⊗ν}(𝐫₁, 𝐫₂, ..., 𝐫_ν) = ρ(𝐫₁) * ρ(𝐫₂) * ... * ρ(𝐫_ν)

这个 ν-体密度积，才是构建 ν-体描述符（如二体功率谱、三体双谱）的真正核心对象。几乎所有主流描述符，都可以看作是把这个多体密度函数投影到某个多体基组（也就是MultiSHs）上的结果。因此，我们的问题就从“如何组合系数”转变为“如何为多体密度积选择一个性质良好的基组”。

2.2 从球谐函数到多极球谐函数：构建多体基组

我们知道，单点的角度依赖可以用球谐函数 Y_l^m(𝐫̂) 完备展开。对于两点函数 f(𝐫̂₁, 𝐫̂₂)，我们可以用两个球谐函数的乘积来展开，但这样得到的基组在整体旋转下的行为并不简单。双极球谐函数（Bipolar Spherical Harmonics, BipoSHs）解决了这个问题。它通过克莱布什-高登（CG）系数，将两个角动量通道 l₁, l₂ 耦合到一个总角动量 λ 上：

Y_{l₁ l₂}^{λμ}(𝐫̂₁, 𝐫̂₂) = Σ_{m₁ m₂} C_{l₁ m₁, l₂ m₂}^{λμ} Y_{l₁}^{m₁}(𝐫̂₁) Y_{l₂}^{m₂}(𝐫̂₂)

其中，C_{l₁ m₁, l₂ m₂}^{λμ} 是CG系数。这个定义看似只是做了个线性组合，但其威力在于它的变换性质：当同时旋转 𝐫̂₁ 和 𝐫̂₂ 时，整个BipoSH像单个球谐函数一样变换：

Y_{l₁ l₂}^{λμ}(R𝐫̂₁, R𝐫̂₂) = Σ_{μ‘} D_{μμ’}^{λ*}(R) Y_{l₁ l₂}^{λμ’}(𝐫̂₁, 𝐫̂₂)

这里 D^{λ}(R) 是角动量为 λ 的维格纳 D-矩阵。这意味着，如果我们用BipoSHs作为基组来展开一个两点函数，那么展开系数 u_{l₁ l₂}^{λμ} 在旋转下也会按照 D^{λ} 矩阵变换。特别地，如果我们只取 λ=0, μ=0 的分量，由于 D^0 恒为1，这个分量就是旋转不变量。这直接指向了功率谱描述符。

三极球谐函数（Tripolar Spherical Harmonics, TripoSHs）将此推广到三点函数。它需要指定一个耦合顺序，例如先将 l₁ 和 l₂ 耦合到 L，再将 L 与 l₃ 耦合到 λ：

Y_{(l₁ l₂)L l₃}^{λμ}(𝐫̂₁, 𝐫₂, 𝐫̂₃) = Σ_{m₁ m₂ m₃ M} C_{L M, l₃ m₃}^{λμ} C_{l₁ m₁, l₂ m₂}^{L M} Y_{l₁}^{m₁}(𝐫̂₁) Y_{l₂}^{m₂}(𝐫̂₂) Y_{l₃}^{m₃}(𝐫̂₃)

TripoSHs同样构成正交完备基，并且在整体旋转下，其变换规则与单球谐函数 Y_λ^μ 一致。通过递归地应用CG系数进行耦合，我们可以构造出任意体数 ν 的多极球谐函数（MultiSHs），为 ν-体密度积提供一个天然的、变换性质明确的基组。

核心提示：理解MultiSHs框架的关键，在于将CG系数视为“角动量耦合器”。它把多个角动量“合成”一个总角动量。这个总角动量 λ 的变换行为，就决定了整个描述符分量的变换性质（标量、矢量、张量）。描述符的设计，本质上就是挑选具有特定 λ 和 μ 的MultiSHs分量。

3. 统一框架下的经典描述符推导

有了MultiSHs这个强大的工具，我们现在可以回过头，以一种全新的、更简洁的方式，重新推导那些经典的描述符。你会发现，原来复杂的证明，现在几乎变成了“显然”的结果。

3.1 功率谱与双谱：作为旋转不变量的投影

首先，考虑二体密度积 ρ^{⊗2}(𝐫₁, 𝐫₂)。我们用BipoSHs来展开它（暂时忽略径向部分，聚焦角度）：

ρ^{⊗2}(𝐫̂₁, 𝐫̂₂) = Σ_{l₁ l₂ λ μ} u_{l₁ l₂}^{λμ} Y_{l₁ l₂}^{λμ}(𝐫̂₁, 𝐫̂₂)

展开系数 u_{l₁ l₂}^{λμ} 由重叠积分给出。现在，我们想要一个旋转不变量来描述环境。根据上一节的结论，我们只需要取 λ=0（从而 μ 也只能为0）的分量。因为 λ=0 的BipoSH在旋转下不变。利用CG系数在 λ=0 时的特殊形式C_{l₁ m₁, l₂ m₂}^{00} = [(-1)^{l₁ - m₁} / √(2l₁+1)] δ_{l₁ l₂} δ_{m₁, -m₂}，我们可以将 λ=0 的投影系数 u_{l₁ l₂}^{00} 与原子密度的展开系数 c_{n l m} 联系起来。

当把径向基函数 R_nl(r) 考虑回来，并对径向指标 n 也进行求和后，我们得到：

p_{i, n₁ n₂ l} = Σ_m (-1)^m c_{i, n₁ l m} c_{i, n₂ l, -m}

看，这就是标准的功率谱分量！在MultiSHs框架下，它的出现是如此自然：它无非就是二体密度积在 λ=0 的BipoSHs基组上的投影系数。其旋转不变性直接继承自基组 λ=0 的性质，无需额外证明。

对于三体描述符，我们考虑三体密度积 ρ^{⊗3}，并用TripoSHs展开。同样地，取 λ=0 的投影分量，就会得到旋转不变量。通过计算这个投影，并与原子密度展开系数关联，我们直接得到：

B_{i, n₁ n₂ n₃}^{l₁ l₂ l₃} = Σ_{m₁ m₂ m₃} c_{i, n₃ l₃ m₃}^* C_{l₃ m₃}^{l₁ m₁, l₂ m₂} c_{i, n₁ l₁ m₁} c_{i, n₂ l₂ m₂}

这正是双谱分量！它的推导在传统方法中较为繁琐，但在这里，它仅仅是三体密度积在 λ=0 的TripoSHs基上投影的自然结果。其旋转不变性同样由基组保证。

实操心得：在代码实现中，我们通常先计算好所有需要的CG系数表。当需要计算功率谱或双谱时，在MultiSHs视角下，你实际上是在做两件事：1) 构建密度积（隐式地通过系数乘积）；2) 用CG系数表对其进行“滤波”，只提取出 λ=0 的通道。这种视角让代码结构更清晰，模块化程度更高。

3.2 SOAP核与λ-SOAP核：作为内积的简洁表达

SOAP核是衡量两个原子环境相似度的函数，其定义为：

K^{（ν）}(ρ, ρ’) = ∫ dR | ∫ d𝐫 ρ(𝐫) ρ’(R𝐫) |^ν

这个公式包含一个对旋转 R 的积分（Haar积分），计算成本很高。传统的推导需要将内部的积分展开，利用球谐函数的加法定理等，过程复杂。而在MultiSHs框架下，我们可以获得一个极其简洁的推导。

关键是将内部的积分视为一个标量函数。对于 ν=2 的情况，∫ d𝐫 ρ(𝐫) ρ’(R𝐫)可以看作是两个密度函数在旋转后的内积。将 ρ 和 ρ’ 分别用球谐-径向基展开，代入计算，并利用球谐函数旋转公式Y_l^m(R𝐫̂) = Σ_{m’} D_{m m’}^{l*}(R) Y_l^{m’}(𝐫̂)，我们会发现，整个表达式可以转化为对两个环境功率谱向量进行点积的形式。这个推导过程在MultiSHs框架下变得非常系统化，因为旋转操作被D矩阵清晰地表征，而CG系数正好负责耦合这些D矩阵。

更强大的是对于λ-SOAP核的推广，它用于预测矢量或张量（如力、偶极矩、极化率）：

(K^{（ν）}(ρ, ρ’))_μμ’^λ = ∫ dR [D^λ(R)^†]_μμ’ | ∫ d𝐫 ρ(𝐫) ρ’(R𝐫) |^ν

这个核在旋转下是协变的。在传统方法中，推导其显式形式非常复杂。但利用MultiSHs，我们可以将密度积 ρ^{⊗ν} 和 ρ’^{⊗ν} 分别用MultiSHs展开。旋转积分 ∫ dR 会作用在MultiSHs基函数上。由于MultiSHs在旋转下按 D^λ 矩阵变换，而Haar积分 ∫ dR D_{μμ’}^{λ*}(R) … 具有正交性，最终会导致一个惊人的简化：λ-SOAP核的显式形式，直接正比于两个环境的、在特定 λ 通道上的MultiSHs展开系数之间的内积。

具体来说，对于给定的体数 ν 和角动量 λ，核的计算简化为：

(K^{（ν）}(ρ, ρ’))_μμ’^λ ∝ Σ_{…} （u_{…}^{λμ} (ρ)）* u_{…}^{λμ’} (ρ’)

其中求和跑过所有其他指标（如径向指标 n 和中间耦合角动量 L 等）。这意味着，一旦我们预先计算好两个环境在MultiSHs基下所有 λ 通道的展开系数 u，那么计算任意阶数 ν 和任意协变阶数 λ 的SOAP核，就变成了简单的向量点积。这极大地简化了理论和计算。

注意事项：这个简化成立的核心是MultiSHs基组的正交性和明确的旋转变换规则。在实现时，需要确保你的CG系数计算和耦合顺序与MultiSHs的定义严格一致，否则点积形式无法成立，会引入错误。

4. 构建线性模型：ACE与SNAP的统一视角

描述符本身不是终点，我们的目标是用它们来构建预测模型。线性模型因其可解释性和训练稳定性而被广泛使用，例如原子簇展开（ACE）和谱邻居分析势（SNAP）。MultiSHs框架为理解这些模型提供了统一的蓝图。

4.1 原子簇展开（ACE）作为通用标量基

ACE的核心思想是将局域能量 E_i 表示为所有可能的、满足对称性的原子簇函数的线性组合。在MultiSHs语言下，这变得非常直接。

首先，局域能量是旋转、反演、置换不变的标量。因此，我们只需要使用 λ=0 的MultiSHs分量。对于 ν-体贡献，我们构建 ν-体密度积 ρ_i^{⊗ν}，并将其投影到 λ=0 的MultiSHs基上。这个投影系数（类似于广义的功率谱/双谱）自然就是旋转不变的。然后，我们将这些投影系数与可调的线性权重 {a_{…}} 组合：

E_i = Σ_{ν} Σ_{…} a_{…}^{(ν)} * [Projection of ρ_i^{⊗ν} onto λ=0 MultiSHs]_{…}

这里的求和指标 “…” 包括径向指标 n 和所有中间角动量。这正是ACE的数学本质：一个在旋转不变多体基（即 λ=0 的MultiSHs）上的展开。MultiSHs框架清晰地显示了，ACE基函数的完备性直接源于MultiSHs基函数在函数空间中的完备性。

4.2 谱邻居分析势（SNAP）与耦合顺序的奥秘

SNAP可以看作ACE的一个特例，它主要使用二体和三体描述符（功率谱和双谱��。在MultiSHs框架下审视SNAP，能揭示其一个关键特性：紧凑性。

SNAP的双谱描述符通常只包含一部分三体角耦合。为什么可以这样？MultiSHs给出了答案。当我们用TripoSHs展开三体密度积时，存在不同的角动量耦合顺序，例如((l₁ l₂)L l₃)和(l₁ (l₂ l₃)L’)。对于完全对称的三体函数（交换任意两个原子位置不变），这些不同耦合方案产生的基函数不是独立的，它们通过所谓的“重耦系数”相关联。

SNAP选择的特定双谱形式，对应于一种特定的耦合方案。MultiSHs理论表明，对于对称函数，不同耦合方案下的展开系数存在约束关系，独立的系数数量比理论上少。因此，SNAP看似“不完整”的基组，实际上对于描述对称的三体相互作用可能是高效且近乎完备的（在一定的角动量截断下）。这解释了为什么SNAP能用相对较少的参数取得很好的效果。

经验技巧：在设计自定义描述符或分析模型表达能力时，利用MultiSHs框架分析不同耦合方案下的系数冗余性，可以帮助你最大限度地减少描述符的维度，避免过拟合，并提升模型计算效率。例如，对于四体或更高体项，系数的冗余会更多，精心选择耦合方案可以大幅压缩特征数量。

4.3 从内部坐标到笛卡尔坐标：MTP与JLP的联系

另一类重要的势函数，如矩张量势（MTP），是直接在内部坐标（原子间距离、角度）上构造多项式基函数。它们与基于球谐展开的ACE/SNAP类方法看似不同。

MultiSHs框架可以作为连接二者的桥梁。球谐函数 Y_l^m(θ, φ) 本质上是角度 (θ, φ) 的函数。而MultiSHs是多个球谐函数的耦合，因此它也可以看作是多个角度变量的函数。通过将MultiSHs在球面上的积分转化为对原子间向量夹角的操作，可以证明，基于MultiSHs的展开与在内部坐标上构造的某些多项式基是等价的。

例如，雅可比-勒让德势（JLP）明确使用了雅可比多项式来处理径向部分，用球谐函数处理角度部分。在MultiSHs框架下，JLP可以很自然地表述为：将径向和角度变量分离，角度部分用MultiSHs处理以保证旋转对称性，径向部分用正交多项式（如雅可比多项式）展开。这显示了MultiSHs框架的包容性：它不规定径向基的具体形式，可以兼容高斯、δ函数、正交多项式等多种选择，为方法间的对比和融合提供了共同语言。

5. 协变模型构建：预测矢量与张量

许多物理量，如原子受力（矢量）、应力张量、偶极矩等，本身是矢量或张量，在旋转下按特定规则变换（协变）。MultiSHs框架为构建此类协变模型提供了系统性的配方。

目标是为局域张量分量 T_{i, λμ} 构建一个线性模型，其中 λ 是张量的角动量秩（λ=0标量，λ=1矢量，λ=2二阶张量等），μ 是其分量。

核心配方如下：

选择目标秩 λ：确定你要预测的张量类型（如力是λ=1）。
构建密度积：构建 ν-体密度积 ρ_i^{⊗ν}。
投影到协变基上：将密度积投影到角动量秩为 λ 的MultiSHs基上，即计算系数u_{i, …}^{λμ} (ρ_i^{⊗ν})。注意，这里我们保留 μ 分量，而不是像标量情况那样只取 λ=0。
线性组合：将投影系数与可学习的权重线性组合，得到预测值：
```
T_{i, λμ}^{(ν)} = Σ_{…} a_{…}^{(ν)} * u_{i, …}^{λμ} (ρ_i^{⊗ν})
```

由于 u_{i, …}^{λμ} 在旋转下按 D^λ 矩阵变换，而权重 a 是旋转不变的，因此整个 T_{i, λμ}^{(ν)} 也按 D^λ 矩阵变换，满足了张量的协变性要求。

5.1 系数约化与对称性约束

直接按上述配方操作，特征数量会非常庞大。MultiSHs框架的另一个优势在于，它能自动引导我们进行系数约化。

考虑一个对称的 ν-体密度积ρ^{⊗ν}(𝐫₁, …, 𝐫_ν)，它对于交换任意两个位置变量是对称的。当我们用MultiSHs展开它时，展开系数u_{…}^{λμ}会继承基函数的对称性。例如，对于BipoSHs，有性质Y_{l₁ l₂}^{λμ}(𝐫̂₁, 𝐫̂₂) = (-1)^{l₁+l₂-λ} Y_{l₂ l₁}^{λμ}(𝐫̂₂, 𝐫̂₁)。如果被展开的函数是对称的（f(𝐫̂₁, 𝐫̂₂)=f(𝐫̂₂, 𝐫̂₁)），那么系数必须满足u_{l₁ l₂}^{λμ} = (-1)^{l₁+l₂-λ} u_{l₂ l₁}^{λμ}。

这个约束意味着，对于对称函数，u_{l₁ l₂}^{λμ}和u_{l₂ l₁}^{λμ}不是独立的。在构建线性模型时，我们只需要包含独立的那一组系数即可（例如，只取 l₁ ≥ l₂ 的系数），这可以几乎减半特征数量。对于三体及更高体项，通过分析MultiSHs在不同耦合顺序下的对称关系，可以找到更复杂的约化条件，从而显著降低模型的参数数量，提高效率。

常见问题与排查：
模型预测的力不满足旋转协变性：首先检查你的协变描述符u^{λμ}的计算是否正确。确保在计算MultiSHs投影时，CG系数的相位约定（Condon-Shortley相位）与球谐函数的定义一致。一个常见的错误是不同库（如SciPy的scipy.special.sph_harm和某些量子力学库）的球谐函数相位约定不同，导致CG系数耦合后出现错误的相位。
描述符维度爆炸：对于高体阶（ν>3）或高角动量截断（l_max），描述符数量会急剧增长。务必利用对称性进行约化。使用MultiSHs框架可以系统性地推导出系数间的约束关系。在代码实现中，可以预先计算一个“独立特征索引”列表，只计算和存储这些独立分量。
数值不稳定：高角动量 l 的球谐函数和CG系数在计算时可能涉及大数值的阶乘，容易溢出或导致精度损失。建议使用对数域计算或查找表，并采用稳定的递归算法（如Wigner 3j符号的递归关系）来计算CG系数。

6. 实现要点与实战经验

理论再优美，最终也要落地到代码。基于MultiSHs框架实现描述符库，可以遵循以下模块化设计：

1. 基础模块：

径向基模块：实现高斯、多项式或学习到的径向基函数 R_nl(r)。注意截断函数 f_cut(r) 的平滑性，推荐使用f_cut(r) = 0.5 * [cos(πr/r_cut) + 1]（当 r ≤ r_cut）这类函数，确保导数连续。
球谐函数模块：使用稳定快速的算法（如递归）计算实值或复值球谐函数 Y_l^m。保持一致的正交归一化约定。
CG系数/3j符号模块：预计算并存储所需角动量范围内的克莱布什-高登系数或等价的维格纳3j符号。这是整个框架的“齿轮”，其精度和效率至关重要。

2. 核心引擎：

密度系数计算：根据c_{i, nlm} = Σⱼ f_cut(rⱼᵢ) R_nl(rⱼᵢ) Y_l^{m*}(𝐫̂ⱼᵢ)计算每个原子的密度展开系数。这是O(N_neighbors)的操作，可通过邻居列表优化。
MultiSHs投影器：实现一个通用函数，给定体数 ν、目标角动量 λ 和耦合方案，计算密度积 ρ^{⊗ν} 在对应MultiSHs基上的投影系数u^{λμ}。这本质上是将多个 c_{nlm} 用CG系数进行缩并。利用对称性（如系数共轭关系c_{l,-m} = (-1)^m c_{l,m}^*）和预计算的CG表来加速。

3. 描述符生成层：

不变描述符生成：对于标量目标（能量），收集所有 λ=0 的投影系数，并按径向指标 n 和角动量通道进行排列，形成特征向量。这就是广义的功率谱（二体）、双谱（三体）等。
协变描述符生成：对于矢量/张量目标，收集特定 λ 下的所有 μ 分量（μ = -λ, …, λ）的投影系数u^{λμ}。每个 μ 对应一个特征子向量。

4. 模型接口：

将生成的特征向量（不变或协变）输出，供后续的线性回归、神经网络或核方法使用。

踩��记录：

相位地狱：球谐函数、CG系数、旋转矩阵的相位约定必须从头到尾保持一致。我强烈建议在项目开始时，用几个已知的角动量耦合例子（如两个 l=1 系统耦合到 L=0,1,2）进行单元测试，验证整个链条的相位是否正确。
对称性利用不足：初期实现时，我计算了所有可能的 (l₁, l₂, …) 组合，导致特征数量庞大，训练缓慢。后来通过实现对称性约化，例如对于二体不变描述符，只存储 l₁ ≥ l₂ 的功率谱，特征数减少了约一半，且不影响模型表达能力。
径向基与截断函数的耦合：径向基 R_nl(r) 在截断半径 r_cut 处的行为需要与 f_cut(r) 协调。如果 R_nl(r) 本身在 r_cut 处不为零，而 f_cut(r) 强行将其压到零，可能会导致描述符对原子位置的高阶导数不连续，影响分子动力学模拟的稳定性。一种更稳健的做法是选择在 [0, r_cut] 区间上正交的径向基，并让 f_cut(r) 平滑地从1衰减到0。

基于MultiSHs的统一框架，最大的优势在于代码的可扩展性。当需要引入四体或更高阶描述符时，你无需重新设计复杂的对称化流程，只需定义新的耦合方案（即MultiSHs的耦合图），然后调用通用的投影函数即可。这大大降低了开发高阶、高精度势函数的门槛。

这个框架将描述符构建从“艺术”和“技巧”更多地转向了“工程”和“系统设计”。它告诉我们，好的描述符不在于其形式多么复杂精巧，而在于其背后的基组是否具备了我们所需的全部对称性。多极球谐函数，正是这样一个普适而强大的数学工具，它为原子尺度机器学习模拟提供了一个坚实、可扩展且易于理解的理论与计算基础。

查看全文

http://www.jsqmd.com/news/881402/