当前位置：首页 > news >正文

机器学习在弱引力透镜宇宙学中的应用：从参数推断到分布外检测

news 2026/6/21 4:28:23

1. 从“看山是山”到“看山不是山”：弱引力透镜宇宙学中的信号与噪声

如果你在十年前问我，天文学家怎么研究宇宙，我大概会跟你聊望远镜、光谱仪和一堆复杂的物理公式。但今天，你再问同样的问题，我的答案里一定会包含“机器学习”、“神经网络”和“参数推断”。这听起来有点跨界，但正是这种跨界，正在解决宇宙学里最棘手的问题之一：弱引力透镜。

弱引力透镜是什么？想象一下，你透过一块不平整的玻璃看远处的风景，玻璃的微小扭曲会让风景的形状发生极其细微的变化。在宇宙中，这片“不平整的玻璃”就是宇宙中无处不在的暗物质和普通物质构成的大尺度结构。来自遥远星系的光，在穿越这数十亿光年的“宇宙玻璃”到达我们望远镜的途中，其路径会被这些物质产生的引力场弯曲，导致星系的图像被微弱地拉伸和扭曲。这种扭曲非常非常小，通常只有百分之几甚至更小，远小于星系本身形状的多样性，所以被称为“弱”引力透镜。

这个“弱”字，既是它的魅力所在，也是它最大的挑战。魅力在于，它不挑食，几乎每一个背景星系都携带着沿途物质分布的信息，是绘制宇宙三维质量地图、研究暗能量和暗物质性质的终极探针。挑战则在于，如何从数以亿计、形状各异的星系图像中，精准地提取出那微乎其微的、由引力透镜效应引起的共同扭曲信号，同时还要把星系自身千奇百怪的形状（本征形状）当作“噪声”给滤除掉。

传统方法，我们称之为“看山是山”的阶段。我们测量大量星系的形状，计算它们的平均椭圆率，这个统计平均值就被认为是引力透镜信号的体现。这种方法依赖一个核心假设：宇宙中星系的指向是随机的，没有优先方向。平均之后，本征形状的噪声就被抵消了，留下透镜信号。这套基于“两点相关函数”的统计框架在过去二十年取得了巨大成功，奠定了现代精确宇宙学的基础。

然而，随着下一代巡天项目如LSST、Euclid、Roman的来临，数据量将呈指数级增长，精度要求也逼近物理极限。“看山是山”的方法开始遇到天花板。首先，观测效应（如大气扰动、仪器点扩散函数）和天体物理效应（如星系内在排列、与前景结构的关联）会引入难以完美校准的系统误差，它们可能模仿或掩盖真实的透镜信号。其次，更关键的是，我们想从透镜信号中反推的宇宙学参数（如暗能量状态方程、中微子质量）与观测数据之间的关系，是一个高度非线性的、充满简并性的复杂物理模型。传统方法通常需要在预先设定的、有限的网格化参数空间里进行巨量的模拟和拟合，计算成本高昂，且难以探索高维参数空间的全部细节。

这就引出了我们今天的核心：基于机器学习的参数推断与分布外检测。这标志着我们进入“看山不是山”的阶段。我们不再仅仅把数据扔进一个固定的统计公式，然后期待一个干净的结果。相反，我们开始训练复杂的模型（比如深度神经网络），让它们直接学习从模拟的观测数据（包含噪声、系统误差、透镜信号）到底层宇宙学参数的复杂映射关系。更重要的是，我们意识到，我们用于训练模型的模拟数据，无论多么精细，都只是对真实宇宙的一种近似。当把训练好的模型应用于真实数据时，那些模拟中未包含的、或与模拟假设不符的未知物理效应或未知系统误差，就会成为“分布外”的样本，可能导致模型产生严重偏差甚至完全错误的推断。因此，分布外检测——即判断输入的真实数据是否与我们训练模型时所假设的“数据分布”一致——变得与参数推断本身同等重要。

2. 构建宇宙的数字孪生：为机器学习准备训练数据

在机器学习项目里，有一句话叫“垃圾进，垃圾出”。在宇宙学中，我们面对的不是垃圾，而是人类所能构建的最精密的“数字宇宙”。训练数据的质量直接决定了机器学习模型的性能和可靠性。

2.1 从第一性原理出发：宇宙学数值模拟

我们的训练数据并非来自真实观测，因为真实的宇宙学参数是未知的。我们必须从物理定律出发，通过超级计算机进行宇宙学数值模拟。

这个过程始于一组初始条件：在宇宙大爆炸后约38万年，宇宙微波背景辐射留下的微小密度涨落。我们根据某个设定的宇宙学模型（包含暗能量、暗物质、普通物质、中微子等的具体参数），将这些涨落作为种子，输入到基于引力动力学的N体模拟代码中，比如Gadget、Abacus或OpenGadget3。模拟代码会求解数十亿甚至上万亿个暗物质“粒子”在自身引力作用下的运动方程，让宇宙在计算机中演化上百亿年。

随着模拟的进行，暗物质在引力作用下逐渐结团，形成从星系到超星系团的复杂网状结构，即宇宙大尺度结构。这些结构的总和，就是产生弱引力透镜效应的那片“不平整的玻璃”。模拟会输出不同“宇宙年龄”（即红移）时刻的暗物质分布三维网格。

2.2 从质量分布到星光图像：实现端到端的模拟管道

仅有质量分布还不够，我们需要生成望远镜最终“看到”的星系图像。这是一个多步骤的、包含大量天体物理模型的“端到端”模拟管道：

星系播种与演化：在暗物质晕中，根据半解析模型（如Galacticus）或经验关系，生成星系。这些模型会赋予星系诸如恒星质量、恒星形成率、大小、形态等属性。
星光渲染：根据星系的恒星种群合成模型，计算其在不同波段的亮度。然后，根据星系的三维位置和形态（盘状、椭球状等），生成高分辨率的理想二维图像。
引力透镜效应计算：利用模拟得到的整个视线方向上的三维质量分布，根据广义相对论计算光线偏折的积分效应（即透镜势）。将这个透镜势的剪切张量作用于第2步生成的每个星系理想图像上，对其进行微弱的拉伸和扭曲。
观测效应模拟：这是注入“现实感”的关键一步。将透镜化后的理想图像，通过一个模拟的望远镜和观测系统：
- 点扩散函数：模拟大气湍流（地面望远镜）或光学衍射（空间望远镜）导致的光斑模糊和变形。
- 噪声注入：加入符合真实曝光时间的天空背景噪声、读出噪声等。
- 像素化：将连续图像采样到探测器的像素网格上。
- 掩模与缺陷：模拟宇宙射线击中、探测器坏点、其他前景天体遮挡等。

最终，我们得到一批与真实观测数据在统计特性上尽可能相似的模拟图像。每一张图像都对应着一个已知的、用于生成它的“真实”宇宙学参数集（如Ω_m, σ_8, w等）。这个“参数-图像”对，就是我们训练机器学习模型所需的标注数据。

注意：模拟的保真度是核心瓶颈。简化物理模型（如忽略重子物质反馈对暗物质分布的影响）或不够真实的观测效应模拟，都会在训练数据中引入系统性的“模拟偏差”。这种偏差会被机器学习模型学习，并最终污染对真实数据的推断。因此，开发更精确、更快速的模拟方法是领域内的前沿竞争。

2.3 数据增广与多样性：对抗过拟合的武器

即使是最强大的模拟，其覆盖的参数空间和天体物理变化也是有限的。为了增强模型的鲁棒性，我们必须进行数据增广：

参数空间采样：不在固定的网格上采样宇宙学参数，而是使用拉丁超立方采样等方法，在参数先验范围内进行更高效、更均匀的随机采样，生成更多样的宇宙模型。
天体物理不确定性：主动变化半解析模型中的不确定参数（如星系-晕关系、反馈强度），让模型见识更多样的星系种群。
系统误差场景：刻意在模拟中引入不同强度、不同类型的系统误差（如PSF模型误差、光度定标误差），并记录其“污染”参数，让模型学会识别或部分修正这些影响。

3. 让神经网络学习宇宙的指纹：机器学习模型的架构与训练

有了高质量的训练数据，下一步是设计一个能理解其中复杂模式的“大脑”。对于弱引力透镜这类数据，我们通常不直接处理海量的原始图像像素，那计算量太大且包含大量无关信息。标准流程是先从图像中提取“摘要统计量”。

3.1 特征工程：从像素到统计量

传统分析依赖的“两点相关函数”本身就是一种强大的摘要统计量。它描述了星系形状之间在不同角度尺度上的相关性。我们可以计算多种相关函数：

剪切-剪切相关函数：两个背景星系形状扭曲的相关性，是主要的宇宙学信号。
星系-星系透镜效应：背景星系形状与前景星系位置的相关性，用于探测星系晕的质量。
聚团效应：星系自身位置分布的相关性。

将这些在不同角度bin和红移bin中计算出的相关函数值，拼接成一个一维的特征向量，作为机器学习模型的输入。这大大降低了数据维度，但保留了绝大部分宇宙学信息。

然而，两点相关函数已知会丢失高阶的非高斯信息。因此，更前沿的方法是使用能够捕获更高阶统计特征的摘要量：

峰统计：在质量地图上寻找高密度区域的峰值及其分布。
散射变换系数：一种对非高斯性敏感的多尺度统计量。
学习型摘要：直接使用一个辅助的神经网络（编码器）从图像或质量地图中自动学习最优的摘要统计量，目标是使这些摘要量对于推断目标参数具有充分性和低维性。

3.2 模型选型：为什么是神经后验估计？

对于参数推断任务，我们不是要做一个分类或点预测，而是要估计在给定观测数据下，宇宙学参数的后验概率分布P(θ|x)。这里θ是参数，x是我们的摘要统计量。

传统方法是马尔可夫链蒙特卡洛，它通过反复迭代来探索后验分布，计算代价极高。机器学习提供了一条捷径：神经后验估计。

我常用的架构是条件归一化流。简单类比：NF就像一个智能的、可学习的“概率分布变形器”。它从一个简单的已知分布（如标准高斯分布）出发，通过一系列可逆的神经网络层，将其扭曲成任意复杂的分布。在训练时，我们输入模拟数据的摘要统计量x和对应的真实参数θ，训练NF学会这样一个变换：当它以x为条件时，能将简单分布变成以θ为中心的、形状合适的后验分布。

训练完成后，面对新的真实数据x_obs，我们只需将简单分布（比如随机高斯噪声）输入到以x_obs为条件的训练好的NF中，它就能瞬间“流出”成千上万个符合后验分布的参数样本θ_i。计算这些样本的均值和方差，我们就得到了参数推断的结果和不确定性，速度比MCMC快几个数量级。

3.3 训练技巧与损失函数

训练这样的模型并非易事。损失函数通常设计为负对数似然：鼓励模型为那些真实的（θ, x）对分配高概率。但有几个关键点：

模拟化校准：由于我们使用模拟数据训练，模型会学到模拟世界的“规律”。为了纠正模拟与真实之间的偏差，可以在损失函数中加入一个正则化项，惩罚模型对模拟数据中已知系统误差参数的依赖性，或者采用模拟化推断技术，主动将模拟器（即前面提到的端到端模拟管道）的近似性纳入模型的不确定性中。
顺序训练：对于高维参数空间，可以分阶段训练。先训练一个模型学习主要参数（如Ω_m, σ_8），固定它们，再训练模型学习次级参数（如w, ∑m_ν）。这有助于稳定训练过程。
对抗性验证：训练一个分类器来区分“来自模拟的数据”和“（假设的）来自真实世界的数据”。如果分类器能轻易区分，说明模拟与真实差距大，需要改进模拟或引入更复杂的模型结构来弥合差距。

4. 警惕“未知的未知”：分布外检测的必要性与方法

这是整个流程中最具哲学意味，也最关乎结果可信度的一环。假设我们训练了一个在所有模拟数据上表现完美的NF模型。现在，我们把它应用到了LSST的第一年真实数据上。模型自信地给出了一个后验分布，指出暗能量状态方程w=-0.8。我们能相信吗？

不一定。因为真实数据中可能包含我们的模拟从未考虑过的效应。例如：

未知的天体物理效应：某种新型的星系内在排列机制。
未被建模的系统误差：望远镜光学系统中一种未被认知的像差。
新物理：超出ΛCDM模型框架的物理过程。

这些都会导致真实数据点x_obs落在模型训练时所见的“数据分布”之外，即成为分布外样本。一个在分布内表现良好的模型，面对OOD样本可能会产生任意错误的预测，且往往还伴随着毫无根据的“过度自信”。

因此，在报告任何推断结果前，我们必须先回答一个问题：“当前的数据，相对于我的训练集，是分布内的吗？”

4.1 基于似然度的检测方法

最直观的思路是利用模型自身输出的似然度。一个训练良好的概率模型，应该为与训练集相似的数据分配高似然度，为异常数据分配低似然度。我们可以设定一个阈值：如果真实数据x_obs的似然度P(x_obs | model)低于某个分位数（比如训练集似然度的5%分位数），就发出OOD警告。

但这种方法有个致命问题：高维空间中的概率密度估计本身极其困难，且神经网络很容易学会给训练集区域分配高密度，而对其他区域（包括一些离训练集不远的OOD区域）的密度估计可能完全不可靠。实践中，仅凭似然度判断OOD效果不佳。

4.2 基于模型不确定性的检测

更可靠的方法是考察模型在面对数据时的“犹豫”程度。对于贝叶斯神经网络，我们可以利用其权重的不确定性。对于我们的NF，虽然它输出的是一个分布，但我们可以通过以下方式探测不确定性：

后验预测检查：从推断出的后验分布中抽取多组参数样本θ_i，每组参数都生成一批对应的模拟数据x_i’。然后比较真实数据x_obs的摘要统计量与这些{x_i’}的摘要统计量在整体分布上的差异。如果x_obs落在{x_i’}分布的极端尾部，可能就是OOD的信号。
集成模型：训练多个NF模型（使用不同的随机种子、数据子集或架构变体）。对于一个分布内数据，所有模型应给出一致的后验分布。对于一个OOD数据，不同模型可能会给出差异巨大的后验，这种模型间的不一致性可以作为OOD指标。

4.3 专门化的OOD检测器

我们也可以训练一个专门的二元分类器作为“哨兵”。这个分类器的任务是区分“来自训练分布的数据”和“故意构造的OOD数据”。构造OOD数据的方法有：

扰动模拟：对输入摘要统计量加入随机扰动，或使用截然不同的宇宙学参数（如w=0）生成数据。
利用无关数据：使用其他巡天项目、不同波段或处理流程的数据作为负样本。

将这个分类器与主推断模型一起使用。当主模型进行推断时，哨兵分类器同时评估该数据被判定为OOD的概率。如果概率很高，则推断结果应被标记为不可信，并触发更深入的调查。

在实际项目中，我们通常会部署一个由似然度阈值、后验预测检查p值、模型集成方差等多个指标构成的综合预警系统。只有当一个数据通过这些联合检验时，我们才会采信其参数推断结果。

5. 实战演练：一个简化的端到端案例分析

让我们抛开理论，看一个高度简化但核心流程完整的例子。假设我们只关心两个参数：物质密度参数Ω_m和物质涨落幅度σ_8。我们的“观测数据”是来自某个模拟巡天的剪切两点相关函数ξ_+，在10个角度bin上的测量值。

5.1 步骤一：模拟与特征准备

使用宇宙学模拟代码，在(Ω_m, σ_8)参数空间内随机采样10000个点。参数先验范围：Ω_m ∈ [0.1, 0.5]， σ_8 ∈ [0.6, 1.0]。
对每一组参数，运行快速模拟管道（可能使用近似方法如千禧年数据库的插值或扰动理论），生成对应的弱透镜质量地图，并计算10个bin的ξ_+。
在计算ξ_+时，人为注入两种水平的系统误差：A) PSF模型误差（小）， B) 光度红移误差（大）。记录每条数据对应的误差标签。
将ξ_+的10个值归一化，形成10000个10维的特征向量。对应的(Ω_m, σ_8)和误差标签作为真值。

5.2 步骤二：构建与训练神经后验估计器

我们使用PyTorch和nflows库构建一个条件归一化流。

条件网络：一个输入为10维特征x，输出为归一化流参数（如仿射耦合层的尺度和平移参数）的小型MLP。
流变换：堆叠8个仿射耦合层，每层配以一个随机排列和批量归一化。
基分布：标准二维高斯分布（对应两个目标参数）。

训练时，每次输入一个批次的特征x和参数θ。损失函数是负对数似然：-log P_flow(θ | x)。我们使用Adam优化器，训练约200个epoch，直到在验证集上的损失收敛。

5.3 步骤三：部署与推断

训练完成后，模型保存。现在面对一个新的“真实”观测特征向量x_obs（同样来自模拟，但训练时未见过）：

将x_obs输入条件网络，获得流参数。
从基分布（高斯）中抽取5000个样本z_i。
让这些z_i通过以x_obs为条件的、训练好的流变换，得到5000个参数样本θ_i。
计算这5000个θ_i的均值、标准差和二维核密度估计，得到Ω_m和σ_8的联合后验分布。

5.4 步骤四：分布外检测实战

假设我们收到了两组x_obs：

数据组1：来自与训练集相同模拟管道、但参数为(Ω_m=0.35, σ_8=0.85)的数据，且只包含小的PSF误差（A类）。
数据组2：参数相同，但我们在生成其ξ_+时，使用了一个训练集中从未出现过的、强烈的“星系形状测量误差”模型进行污染。

对于数据组1：

模型推断的后验均值接近(0.35, 0.85)，不确定度椭圆合理。
后验预测检查：用后验样本生成的预测ξ_+分布与观测的x_obs重叠良好，p值>0.1。
集成模型的方差很小。
结论：分布内，结果可信。

对于数据组2：

模型仍然给出了一个后验，但均值可能偏离真实值，比如(0.32, 0.88)。
后验预测检查：生成的预测ξ_+分布与x_obs严重偏离，p值<0.01。
集成模型的方差显著增大。
专门训练的OOD分类器给出高OOD概率。
结论：触发OOD警报！推断结果不可信。需要检查数据质量，排查是否存在未知系统误差，并可能需重新训练包含此类误差的模型。

6. 当前挑战与未来展望：我们离“看山还是山”还有多远？

机器学习为弱引力透镜宇宙学打开了新的大门，但它并非万能钥匙，我们仍站在“看山不是山”的困惑阶段，面临几个尖锐的挑战：

挑战一：模拟与现实的差距是根本性的。无论模拟多精细，它都是模型的产物。星系形成物理、重子效应、广义相对论修正等领域的任何认知不足，都会直接转化为训练数据的偏差。模拟化推断是应对此挑战的前沿方向，它试图将模拟器的不确定性本身作为模型的一部分进行推断，但计算复杂度极高。

挑战二：机器学习模型的可解释性黑箱。当一个NF给出一个奇怪的后验时，我们很难追溯是数据的哪个特征导致了这种结果。这与传统方法中我们可以逐一检查每个相关函数bin的贡献形成对比。发展可解释的AI，或构建“可分解”的摘要统计量，是必要的。

挑战三：OOD检测本身的不确定性。没有一种OOD检测方法是绝对可靠的。我们可能漏检（将OOD误判为分布内），也可能虚警（将分布内但罕见的样本误判为OOD）。这需要我们在科学结论中诚实报告OOD检测的不确定性，并将其纳入最终参数的误差条中。

挑战四：计算资源的博弈。高保真模拟极其昂贵，而训练复杂的深度学习模型也需要海量数据和算力。如何在有限资源下做出最优权衡——是用更快的近似模拟生成更多数据，还是用更少的精确数据训练更高效的模型——是一个持续的工程优化问题。

展望未来，我认为我们正走向一个“模拟-数据-模型”三位一体紧密耦合的新范式。观测数据将不仅用于最终的推断，也将用于迭代地改进模拟和模型。主动学习技术可以指导我们下一步应该运行哪个参数的模拟，以最大程度地减少模型的不确定性。而最终，当我们的模型能够稳健地通过所有OOD检测，并且其推断结果与多种独立宇宙学探针（如宇宙微波背景、重子声波振荡）相互印证时，我们或许才能抵达“看山还是山”的新境界——那时，我们不再纠结于工具本身，而是透过工具，对宇宙的基本图景有了更清晰、更确信的洞察。

这条路很长，但每一步都伴随着对宇宙更深的理解和对方法论的革新。作为从业者，我的体会是，保持对模拟细节的苛刻、对模型输出的怀疑、以及对未知效应的敬畏，是让机器学习真正成为宇宙学可靠伙伴的唯一途径。

查看全文

http://www.jsqmd.com/news/1052634/