当前位置：首页 > news >正文

基于机器学习与多波段测光数据的天文目标分类实战

news 2026/7/13 11:22:16

1. 项目概述：从海量数据中“大海捞针”的智能寻星术

在浩瀚的宇宙中，矮星系就像散落在广袤空间里的“小不点”。它们虽然个头小、亮度暗，却是宇宙中数量最庞大的星系类型，承载着理解星系形成、暗物质分布以及宇宙早期演化的关键信息。然而，要在覆盖全天区、包含数十亿个天体的现代巡天数据中，精准地找出这些不起眼的近邻矮星系，无异于大海捞针。传统的光谱证认方法虽然精准，但面对如此庞大的数据量，其效率低下、成本高昂的缺点暴露无遗。这就好比你想在撒哈拉沙漠里找几颗特定的沙子，用显微镜一颗颗看显然不现实。

这正是机器学习，特别是神经网络分类模型大显身手的地方。我们这次的项目，核心就是利用Legacy Survey DR9 (LS DR9)和WISE巡天提供的多波段测光数据，训练一个智能的“寻星模型”，让它自动、快速、高精度地从近4000万个经过初步筛选的天体源中，揪出那些可能是近邻矮星系的候选体。最终，我们成功筛选出了超过11.2万个高置信度的候选目标。这个工作的价值，不仅在于提供了一个庞大的候选体列表供后续光谱观测，更在于验证了一条技术路径：仅凭测光数据，结合先进的机器学习算法，我们就能高效地完成对特定稀有天体的大规模初筛。这对于即将到来的CSST、Euclid、LSST等下一代更强大的巡天项目，具有重要的方法论意义。无论你是天体物理领域的研究生，还是对数据科学在天文中的应用感兴趣的开发者，理解这套从数据清洗、特征工程到模型构建与验证的完整流程，都将是极具价值的实战经验。

2. 核心思路与数据基石：如何教会机器识别“小不点”

2.1 问题定义与数据挑战

我们的目标很明确：构建一个分类模型，输入一个天体的多波段测光参数，输出它属于“近邻矮星系”的概率。但实现起来，挑战重重。

首先，什么是“近邻矮星系”？我们必须给出一个清晰、可操作的定义。在本次工作中，我们将其界定为：红移z < 0.02（距离我们大约在8.5亿光年以内），且恒星质量在10^6到10^9倍太阳质量之间的星系。这个定义平衡了科学意义（研究本星系群和近邻宇宙的矮星系）与数据可行性（在LS DR9的测光深度内可探测）。

其次，数据从哪来？我们依赖的是LS DR9（提供g, r, z波段光学数据）和WISE巡天（提供W1, W2波段中红外数据）。这些数据是公开的，但原始数据量极其庞大，且包含恒星、遥远的大质量星系、图像伪影等各种“污染源”。我们的任务就是从这些“噪音”中分离出“信号”（矮星系）。

最大的挑战在于样本不平衡。在宇宙中，像我们银河系这样的大质量星系，以及高红移的星系，数量远多于近邻的矮星系。反映到训练数据中，就是“信号”（矮星系）的样本量远小于“噪音”（其他各类天体）。如果直接用原始不平衡的数据训练模型，模型会倾向于把所有东西都预测为数量最多的类别（比如高红移星系），导致对矮星系的召回率极低。这就好比教一个孩子认猫和狗，如果给他看一万张狗的照片和十张猫的照片，他很可能学会把什么都认成狗。

2.2 训练样本的构建：信号与噪音的教科书

要训练模型，首先得有标注好的“教科书”。我们通过交叉匹配已有光谱巡天目录（如NSA、DESI EDR等），构建了一个包含七类天体的训练集：

信号 (Signal)：红移z<0.02，恒星质量在10^6-10^9 M⊙的矮星系。
近邻次亮星系 (Nearby Sub-L, NSL)*：红移0.02<z<0.05，质量在10^9-10^9.75 M⊙的星系。
近邻大质量星系 (Local Massive, LM)：红移z<0.02，质量>10^9.5 M⊙的星系。
邻近大质量星系 (Nearby Massive, NM)：红移0.05<z<0.2，质量在10^9.25-10^10 M⊙的星系。
高红移大质量星系 (High-z Massive, HM)：红移z>0.2，质量>10^10 M⊙的星系。
邻近旋涡星系 (Nearby Spiral, NS)：红移z>0.03的旋涡星系。
图像伪影特征 (Artifact Features, AF)：来自图像处理过程中产生的非真实天体信号。

这个分类体系的设计非常巧妙。它没有简单地分为“矮星系”和“非矮星系”，而是根据红移和质量进行了更精细的划分。这样做的好处是让模型不仅能学会区分矮星系和非星系（如恒星、伪影），还能学会区分矮星系和其他类型的星系（如不同红移的大质量星系）。模型需要学习的是这些类别在特征空间中的复杂边界。

注意：训练样本的质量直接决定了模型的上限。这里的一个关键难点是，训练样本中天体的恒星质量是通过光谱能量分布拟合估算的，其典型不确定性可达0.25 dex（约±80%）。这意味着在质量边界附近，会有一定程度的类别混淆，这为模型学习带来了固有的噪声。在构建自己的训练集时，必须评估并理解标注数据的不确定性。

2.3 特征工程：给天体制定“体检报告”

模型的好坏，一半取决于数据，另一半取决于特征。我们不可能把原始图像像素直接扔给模型（虽然卷积神经网络CNN可以，但这里我们用的是测光参数）。因此，特征工程至关重要。我们为每个天体构建了以下特征：

基本测光星等：g, r, z, W1, W2五个波段的星等。这反映了天体在不同波长下的总亮度。
颜色指数：如g-r,r-z,z-W1等。颜色是区分天体类型最强大的工具之一。例如，年轻的恒星形成区偏蓝（g-r较小），而年老恒星主导的区域或受尘埃红化的区域偏红。
不同孔径下的流量：这是本项目的关键创新点。我们不仅使用了测光管道给出的总流量，还提取了在多个固定物理孔径（例如1”, 2”, 4”, 8”半径）下的流量值。这些apflux特征编码了天体的表面亮度轮廓信息。

为什么apflux如此重要？矮星系通常具有低表面亮度和延展的结构，而恒星是点源，遥远星系可能更致密。通过比较不同孔径下的流量比例，模型能够捕捉到天体光度的空间分布特征。例如，一个点源（恒星）在小孔径内会集中绝大部分光，而一个延展的矮星系的光会更分散。实验证明，加入apflux特征后，模型的性能得到了显著提升，神经网络模型对这些特征的依赖度很高。这告诉我们，对于形态敏感的识别任务，引入与空间分布相关的特征是提升模型判别力的有效手段。

3. 模型选型、训练与核心技巧

3.1 算法擂台赛：谁是最佳“星探”？

我们测试了多种经典的机器学习分类算法，让它们在同一起跑线上竞赛：

K近邻：简单直观，但计算量大，对高维特征和不平衡数据敏感。
随机森林：集成学习方法的代表，抗过拟合能力强，能提供特征重要性。
XGBoost：梯度提升树的优秀实现，在许多表格数据竞赛中表现突出。
神经网络：多层感知机，能够学习复杂的非线性关系。
TabNet：专门为表格数据设计的注意力机制网络，理论上能学习特征之间的交互。

经过严格的训练和验证集测试，神经网络模型脱颖而出，成为我们的最终选择。它在测试集上达到了95.33%的精确率和76.07%的召回率。这个结果非常亮眼，意味着模型找出来的目标，超过95%都是对的，同时还能找到超过四分之三的真正矮星系。

一个有趣的发现是：不同的模型依赖不同的特征。随机森林和XGBoost等树模型更依赖颜色和总星等这类全局特征；而神经网络模型则更看重apflux这类表征空间分布的特征。这说明神经网络更善于挖掘数据中深层次的、与形态相关的复杂模式。

3.2 应对不平衡样本的战术选择

如前所述，样本不平衡是核心挑战。我们系统性地尝试了多种应对策略：

类别权重：在神经网络损失函数中，给少数类（矮星系）更高的权重。效果：召回率有所提升，但精确率轻微下降。
欠采样：随机减少多数类样本，使其与少数类数量相当。
- 随机欠采样：严重损失了多数类的信息，导致精确率大幅下降。
- NearMiss：试图保留多数类中靠近少数类的“困难样本”，但效果不佳。
- 单边选择：表现相对较好，与不平衡样本的结果接近。
过采样：人工增加少数类样本。
- 随机过采样：简单复制少数类样本，容易导致过拟合。
- SMOTE/ADASYN：在特征空间中为少数类合成新样本。效果：能显著提升召回率（可达87%），但精确率会下降到87%-89%。

我们的最终抉择：经过权衡，我们没有采用任何重采样技术，而是直接使用原始的不平衡数据训练了最终的神经网络模型。原因在于，我们的首要目标是高精确率。我们宁愿漏掉一些真正的矮星系（召回率中等），也绝不能把大量非矮星系误认为是矮星系，否则会给后续昂贵的光谱观测带来巨大浪费。重采样方法虽然提升了召回率，但都以牺牲一定的精确率为代价，这与我们的核心需求相悖。

实操心得：在处理不平衡分类问题时，没有“银弹”。选择哪种策略，完全取决于你的业务目标。如果误报成本极高（如医疗诊断、欺诈检测、或本例中的光谱观测资源），那么优先保证精确率，接受一定的召回率损失是明智的。反之，如果漏报成本更高，则应想方设法提升召回率。务必在验证集上明确评估不同策略对这两个关键指标的影响。

3.3 模型训练细节与避坑指南

我们的神经网络是一个相对标准的全连接前馈网络。这里分享几个关键的实操细节：

数据标准化：所有输入特征必须进行标准化处理（例如，减去均值，除以标准差）。这是训练神经网络的标配，能加速收敛并提升模型稳定性。
网络结构：我们采用了包含多个隐藏层的结构，并使用ReLU作为激活函数。层数和神经元数量需要根据数据复杂度和样本量通过交叉验证来确定，避免过拟合。
正则化：使用了Dropout和L2权重衰减来防止模型在训练集上过拟合。特别是在样本量相对特征数不是特别巨大的情况下，正则化至关重要。
验证策略：严格采用分层K折交叉验证。由于数据不平衡，必须确保每一折中各个类别的比例与整体数据集保持一致，否则验证结果会不可靠。
早停法：监控验证集上的损失，当其在连续多个周期内不再下降时，停止训练。这是防止过拟合最简单有效的方法之一。

一个常见的坑：直接使用准确率作为评估指标。在不平衡数据中，即使模型把所有样本都预测为多数类，准确率也会很高。必须使用精确率、召回率、F1分数以及混淆矩阵来全面评估模型性能。我们主要关注“信号”类的精确率和召回率。

4. 从原始数据到候选体列表：完整流水线解析

4.1 数据预处理与筛选

我们不可能把LS DR9的全部196亿个源都扔给模型，那样计算效率太低，且包含太多明显不符合条件的源（如点源恒星）。因此，需要先施加一系列严格的预筛选条件，形成一个相对干净的输入池。这个过程就像用不同网眼的筛子层层过滤：

基础质量筛选：只保留测光信息完整的源（NOT NULL），排除数据缺失的。
扩展源筛选：要求半光半径r1/2 > 1角秒。这是一个非常强的约束，能过滤掉绝大部分恒星（点源）。
图像质量筛选：
- Brick Primary = 1：确保每个天体只被主巡天区块计数一次。
- Maskbits = 0：排除处于坏像元、饱和星、衍射峰等掩码区域的源。
- Wisemask W1, W2 = 0和Anymask g, r, z = 0：确保在WISE和光学波段图像上，目标源没有被邻近的坏像元污染。
信噪比筛选：要求g和r波段的信噪比snr > 5。这保证了基本测光质量的可靠性。
亮度筛选：要求消光改正后的r波段星等mag_r < 21.5。这排除了过于暗弱、测光不可靠且后续光谱观测极其困难的目标。

经过这一系列筛选，源的数量从近200亿锐减到约3982万。下表清晰地展示了每一步筛选的效果：

筛选步骤	剩余样本数	过滤目标
全天空原始数据	1,969,942,678	-
测光信息完整	1,067,722,306	排除数据缺失源
半光半径 > 1角秒	94,874,076	排除点源（主要是恒星）
图像质量掩码	85,333,687	排除坏像元、污染区域源
g/r波段信噪比 > 5	71,126,585	排除测光噪声大的源
r波段星等 < 21.5	39,820,031	排除过暗、难以观测的源

4.2 模型推断与后处理

将3982万个通过预筛选的源输入训练好的神经网络模型，模型会为每个源计算属于7个类别的概率。我们采取“赢者通吃”的策略：将每个源分类到概率最高的那个类别。这样，我们得到了112,859个被分类为“近邻矮星系”（信号）的候选体。

然而，模型输出后还需要一步关键的后处理。我们发现，尽管预筛选要求mag_r < 21.5，但一些被分类为信号的候选体在z波段非常暗（mag_z > 22.5），甚至在图像上几乎不可见。检查发现，这些大多是受到强星光污染所致。考虑到LS巡天在z波段的深度约为22.5等，我们额外施加了mag_z ≤ 22.5的条件，剔除了757个这样的不可靠候选体，最终保留了112,859个近邻矮星系候选体。

注意：模型给出的分类概率本身就是一个非常重要的置信度指标。在我们的候选体列表中，概率P_signal从0.2到1.0不等。用户完全可以根据自己的需求设定概率阈值来获取高置信度子样本。例如，设定P_signal > 0.9，可以得到约4.5万个极高置信度的候选体，非常适合用于优先级最高的光谱跟进观测。

4.3 结果可视化与初步分析

我们将高置信度（P_signal > 0.9）候选体在天球上的分布绘制成图。一个有趣且有些反直觉的发现是：在室女座、后发座、天炉座这些著名的近邻富星系团区域，并没有出现候选体数量的显著过剩。这很可能部分归因于我们严格的图像质量筛选（anymask=0），它排除了那些靠近明亮星系、测光可能受到污染的天体，而这恰恰是星系团中卫星星系可能出现的区域。这提示我们，当前的筛选流程可能对星系团环境中的矮星系存在选择效应，未来的方��需要对此进行优化。

5. 模型验证：用独立数据说话

一个模型在自家测试集上表现好不算什么，关键要看在从未见过的“考场”上能否通过考验。我们使用了三个完全独立的、未参与训练的光谱证认样本对模型进行了严格验证。

5.1 DESI早期数据释放验证

DESI-EDR包含了1383个红移z < 0.02且具有可靠恒星质量估计的星系，其中1255个是我们的目标矮星系（信号）。我们的模型从中识别出了640个信号候选体。最关键的结果是：这640个被模型认为是矮星系的，经光谱证实，全部都是真正的矮星系！这意味着在该验证集上，模型的精确率达到了100%。当然，召回率为51%（640/1255），说明我们漏掉了一半多的真正矮星系，但这与我们优先保证精确率的策略是一致的。

5.2 SAGA与ELVES巡天验证

SAGA和ELVES是两个专门搜寻近邻大质量星系周围卫星矮星系的巡天项目，它们的目标与我们的“信号”类高度重合，且完全独立于我们的训练集。

SAGA样本：在118个卫星星系中，模型正确识别了71个矮星系，精确率达95.95%，召回率达67.62%。
ELVES样本：在135个卫星星系中，模型正确识别了61个矮星系，精确率达96.83%，召回率达52.59%。

这两个独立验证结果与DESI-EDR的结果高度一致，都证明了我们的模型具有极高的精确率（>95%）和中等但可接受的召回率（~50%-70%）。这强有力地说明，我们的模型没有过拟合，其泛化能力优秀，能够可靠地应用于全新的天区数据。

6. 候选体的科学价值初探：质量-星族关系

得益于DESI-EDR提供的光谱红移，我们可以计算一部分被正确识别的矮星系的物理性质，如物理大小（千秒差距）和恒星质量。我们据此绘制了这些矮星系的恒星质量-恒星形成率关系图和质量-大小关系图。

分析发现，我们找到的矮星系样本中，多数是蓝色的、正在形成恒星的星系，它们的质量-星族关系与更高质量星系的主序关系基本一致。此外，红色（年老）的矮星系通常比蓝色的矮星系更为致密。这些关系与理论模拟（如EDGE模拟）的预测以及之前对大样本星系的研究结果是相容的。这表明，我们的机器学习方法不仅是在做“模式识别”，它找到的确实是在物理性质上符合预期的、真实的矮星系群体，为研究近邻宇宙中矮星系的整体性质提供了宝贵的样本。

7. 局限性与未来展望

尽管当前模型取得了成功，但我们清醒地认识到其局限性，这也是未来改进的方向：

训练样本的代表性与误差：训练样本的恒星质量估计存在约0.25 dex的误差，这会导致类别边界模糊。未来DESI、PFS等大规模光谱巡天将提供数量更多、质量更高的训练样本。
特征局限：目前仅使用了几个宽波段的测光信息。未来的巡天如CSST（包含紫外u波段）、Roman、Euclid、LSST将提供从紫外到近红外更多波段、更深、分辨率更高的图像。新增的波段（如紫外、Y、H、K）将提供更丰富的恒星年龄、尘埃、质量等信息，极大提升模型的区分能力。
算法进阶：本研究使用了测光参数作为特征。一个更前沿的方向是直接使用图像本身作为输入，训练卷积神经网络。已有研究表明，CNN在识别低表面亮度星系等任务上，性能远超基于测光参数的传统机器学习方法。这将是未来处理LSST等极致深度图像数据的关键技术。
选择效应：当前严格的图像质量筛选可能排除了星系团中心或明亮星系附近的大量真实矮星系。开发能够处理复杂背景和污染的更鲁棒的测光方法或图像算法，是提高样本完整性的重要一步。

这次基于LS DR9和机器学习搜寻近邻矮星系的工作，可以看作是一次成功的概念验证和技术演练。它证明了纯粹基于测光数据和大规模机器学习的方法，能够高效、高精度地完成特定天体的海量筛选。随着数据量和质量的不断提升，以及算法的持续优化，这套技术流程必将成为下一代天文大数据挖掘中不可或缺的核心工具。对于我们这些从业者而言，掌握数据预处理、特征构建、模型调优以及结果物理解读的全链条能力，是在数据驱动的天文学时代保持竞争力的关键。

查看全文

http://www.jsqmd.com/news/886340/