当前位置：首页 > news >正文

基于Transformer的稀疏结构感知：CraterSense实现月球自主导航新突破

news 2026/5/26 20:58:01

1. 项目概述：当Transformer遇见月球导航

在深空探测任务中，航天器的自主导航能力是决定任务成败的关键。想象一下，一个探测器正以每秒数公里的速度飞向月球，它无法依赖GPS，也无法实时接收地面指令进行精确的轨道修正。它必须像一位经验丰富的探险家，仅凭“眼睛”观察到的陌生地形，就能瞬间判断出自己的精确位置。这就是“陨石坑定位”技术要解决的核心问题：通过识别和匹配月球表面的陨石坑，实现航天器的自主、实时定位。

传统的陨石坑定位方法，大多依赖于复杂的几何匹配算法，比如构建陨石坑之间的三角形关系或圆锥曲线约束。这些方法在理想条件下（陨石坑检测完美、姿态先验信息准确）或许可行，但在真实的太空环境中，图像噪声、陨石坑遮挡、检测误差无处不在。更棘手的是，在“迷失在太空”（Lost-in-Space, LIS）的场景下，航天器没有任何先验的位置和姿态信息，传统的几何匹配算法计算量巨大，且对误差极其敏感，常常陷入“组合爆炸”的困境，难以满足实时、机载计算的需求。

近年来，深度学习，特别是视觉Transformer（ViT），为这一难题带来了新的曙光。ViT通过自注意力机制，能够建模图像中任意两个区域之间的长距离依赖关系，这对于理解陨石坑之间复杂的空间布局模式至关重要。然而，直接将标准的ViT用于陨石坑识别，就像用一把大锤去绣花——力量有余，但精度和效率不足。陨石坑布局图本质上是纹理稀疏、几何结构明确的：一张图上可能只有十几个白色的圆圈（代表陨石坑）散落在漆黑的背景上，绝大部分像素是无效信息。标准的ViT会对所有图像块（Patch）进行全局注意力计算，产生了巨大的计算浪费，同时也难以聚焦于关键的局部结构关系。

正是在这样的背景下，我们团队提出了CraterSense系统。它的核心创新在于，我们不再将陨石坑识别看作一个几何匹配问题，而是将其重构为一个基于“稀疏结构图像”的分类问题。我们设计了一种全新的网络架构——CATSformer（Central-Attention and Token Selection Transformer），它像一位拥有“结构感知”能力的导航专家，能够自动忽略无用的背景，只关注陨石坑之间的相对位置和大小关系，从而在极低的计算成本下，实现了高达98.2%的识别准确率。这套系统不依赖任何先验位姿信息，完全从零开始进行定位，为未来月球、火星乃至更远深空的自主探测任务，提供了一套轻量、鲁棒且实时的视觉导航解决方案。

2. 核心思路：从几何匹配到结构感知分类的范式转变

要理解CraterSense的巧妙之处，首先要跳出传统思维的框架。过去的思路是“检测-匹配”：先检测出图像中的所有陨石坑，然后拿着这个陨石坑列表，去庞大的全球陨石坑数据库中挨个比对，寻找最相似的几何组合。这个过程计算复杂度高，且容错性差。

2.1 稀疏结构图像：化繁为简的抽象艺术

CraterSense的核心思想是“检测-抽象-识别”。我们引入了一个中间表示层：稀疏结构图像。这不是一张真实的月球照片，而是一张人工生成的、高度抽象化的“示意图”。

它的生成过程是这样的：

选定中心坑：从检测到的陨石坑中，选择一个作为待识别的“主角”（中心坑）。
划定兴趣区域：以这个中心坑为圆心，划定一个圆形区域。这个区域的大小，通过一个缩放系数μ来模拟不同的相机高度（即不同的观测尺度）。
选取辅助坑：在这个圆形区域内，找出距离中心坑最近的若干个（例如10个）陨石坑作为“配角”（辅助坑）。
生成抽象图像：将中心坑置于图像正中心，将所有陨石坑（中心和辅助）根据它们的中心坐标和直径，以白色圆圈的形式绘制在纯黑色背景上。最后，将图像旋转，使得第一个辅助坑落在水平轴的正方向上。

这样，一张复杂的、充满噪声的月球地形图，就被简化成了一张只包含位置和尺度信息的“点线图”。这个抽象过程带来了三大好处：

消除纹理干扰：完全摒弃了光照变化、阴影、地表纹理等无关信息，让模型专注于几何结构。
统一输入格式：无论原始图像分辨率、视角如何，生成的稀疏结构图像都是固定大小（如256x256），且中心坑永远在正中，第一个辅助坑永远在右侧。这极大地简化了学习任务。
增强数据泛化：我们可以通过程序，轻松地对这些抽象图像进行大规模数据增强，例如模拟检测误差（给陨石坑位置、直径加噪声）、模拟漏检（随机删除一些坑）、模拟误检（随机添加虚假的坑），甚至模拟相机姿态扰动。这让模型在训练阶段就见识了各种可能的“不完美”，从而在实际应用中表现出极强的鲁棒性。

实操心得：在构建稀疏结构图像时，中心坑的选择标准至关重要。我们通过分析发现，直径在2-25公里范围内的陨石坑，其检测准确率相对较高，且尺寸适中，适合作为识别基准。直径小于1公里的坑检测误差大，大于25公里的坑在图像中占比过大，会导致辅助坑信息不足。这个基于数据统计的筛选步骤，是保证后续识别成功率的基础。

2.2 CATSformer：为稀疏结构量身定制的Transformer

有了理想的输入，还需要一个能理解它的“大脑”。标准的ViT在处理这种稀疏图像时，效率低下。CATSformer就是我们为此设计的专用架构，它包含了三大核心创新：

1. 令牌选择：扔掉“垃圾信息”将256x256的图像分割成16x16的块（共256个令牌）。在稀疏结构图像中，超过80%的块是纯黑色的背景，不包含任何有用信息。CATSformer的第一步，就是直接丢弃这些背景块对应的令牌。这就像一个高效的秘书，在老板看报告前，先把所有空白页抽走。这一操作能立即减少80%以上的计算量，并让模型注意力更集中。

2. 中心注意力：聚焦关键区域在陨石坑识别任务中，判断“中心坑是谁”的主要依据，是它周围邻近的那些辅助坑。距离很远的坑，其影响微乎其微。因此，CATSformer没有进行全局的、所有令牌之间的两两注意力计算，而是采用了中心注意力机制。我们只保留图像中心区域（例如3x3或5x5）的少数几个令牌作为“查询”，让它们去关注所有被筛选后保留的“键”和“值”。这相当于把全局的“茶话会”，变成了以中心人物为核心的“小组讨论”，计算复杂度从O(N²)大幅降低，并且强制模型学习最有判别力的局部结构特征。

3. 结构位置编码：注入几何先验丢弃令牌和聚焦中心，可能会损失一些全局的绝对位置信息。为了弥补这一点，我们为每个保留的令牌计算了一个结构位置编码。这个编码不是简单的“你在第几行第几列”，而是描述了该令牌相对于中心坑的几何关系：[dx, dy, r, θ]，即x方向偏移、y方向偏移、径向距离和方位角。然后通过一个小型多层感知机，将这个几何向量映射成与视觉特征维度相同的嵌入向量，与原始的图像令牌特征相加。这样，模型在“看”一个白色圆圈时，不仅知道它是个圈，还精确地知道它相对于中心坑的方向和距离，极大地增强了空间结构理解能力。

避坑指南：在实现令牌选择时，一个常见的陷阱是导致Transformer编码器输出的序列长度不固定（因为每次保留的令牌数不同），这会给后续的分类层带来麻烦。CATSformer通过固定中心注意力查询令牌的数量巧妙地解决了这个问题。无论背景令牌被丢弃多少，中心查询令牌的数量是恒定的，因此编码器的输出维度始终保持一致，无需进行繁琐的填充操作。

3. 系统实现：从像素到坐标的全流程拆解

CraterSense不是一个孤立的识别模型，而是一个完整的端到端定位系统。它包含三个核心模块：陨石坑检测网络、陨石坑识别网络和最终的定位策略。

3.1 陨石坑检测网络：为识别提供可靠的“原料”

识别网络的输入依赖于检测网络输出的陨石坑位置和大小。如果检测不准，后续识别就是“垃圾进，垃圾出”。我们选择了CenterNet作为检测框架的基石，因为它采用“中心点热图”的预测方式，与陨石坑的圆形结构天然契合，且无需设计复杂的锚框。

然而，月球图像中陨石坑尺度变化极大，且经常出现大坑套小坑、坑缘重叠的情况。在标准CenterNet中，当两个陨石坑中心靠得很近时，它们的热图响应峰值会相互干扰、抑制，导致漏检。为此，我们提出了一个轻量级的双尺度检测头。

标准检测头：处理原始分辨率特征图，擅长检测中小型陨石坑，定位精准。
大尺度检测头：处理下采样后的低分辨率特征图，拥有更大的感受野，专门用于捕捉大型陨石坑的宏观特征。

两个检测头的损失会共同监督网络训练。在推理时，我们将两个头的结果进行融合。实验表明，这个简单的改进能显著提升对大坑和重叠坑的召回率，且计算开销增加甚微。检测网络的损失函数是标准检测损失（焦点损失用于分类，L1损失用于边框回归）与大尺度检测头损失的加权和。

3.2 陨石坑识别网络：CATSformer的工程实现细节

基于前述理论，我们搭建了CATSformer的完整架构。

1. 卷积词干在将图像切块送入Transformer之前，我们使用一个轻量的卷积词干（由几个卷积层和池化层组成）对输入进行预处理。这比ViT原始的线性投影层能更好地提取底层的空间特征，稳定训练过程，并让模型对超参数（如权重衰减）不那么敏感。

2. 网络配置我们设计了标准版和轻量版两个CATSformer。

CATSformer：4层Transformer编码器，令牌维度512，4个注意力头。
CATSformer-s：2层Transformer编码器，令牌维度384，计算量更小，适合资源受限的平台。

3. 知识蒸馏压缩为了进一步压缩模型，我们采用了离线知识蒸馏。用训练好的大CATSformer作为“教师”，去指导小CATSformer-s（“学生”）训练。损失函数由标准交叉熵损失和教师-学生输出分布的KL散度损失组成。这样，学生模型能在参数量大幅减少的情况下，继承教师模型的“经验”，保持较高的识别精度。

3.3 定位策略：从识别结果到空间坐标

识别网络输出的是“这个中心坑是数据库中的第X号坑”以及一个置信度。单次识别还不足以定位，我们需要一个投票与验证的过程。

多候选生成：对一张输入图像，检测网络会给出N个陨石坑。我们将其中的每一个都轮流作为“中心坑”，生成对应的稀疏结构图像，送入识别网络，得到N个识别结果和置信度。
置信度过滤：设定一个较高的置信度阈值（如0.96）。只保留置信度高于此阈值的结果。
交叉验证：检查这些高置信度的识别结果之间是否一致。例如，如果识别出坑A、B、C，那么它们在图像中的相对位置关系，应该与它们在全局数据库中的已知位置关系相匹配。
PnP解算位姿：一旦我们获得了至少4对可靠的“图像2D坐标-数据库3D坐标”的匹配点，就可以利用经典的透视n点算法，解算出相机相对于月球表面的精确旋转矩阵和平移向量，即航天器的姿态和位置。

这个策略的巧妙之处在于，它通过识别网络的高置信度输出和几何一致性验证，构建了一个鲁棒的闭环。即使检测有少量误差，只要识别出的几个关键坑是正确的，并且它们之间的空间关系吻合，就能得到可靠的定位结果。

4. 实验验证与深度分析

我们选择了月球上两个具有代表性的区域进行实验：NavArea1（陨石坑密集区）和NavArea2（陨石坑稀疏区）。数据集基于LRO WAC DOM光学图像和Robbins全球陨石坑数据库构建。

4.1 检测网络性能：双尺度头的威力

我们将提出的BSD-CenterNet与Faster R-CNN、YOLOv11、RT-DETR等主流检测器进行了对比。

模型	参数量 (M)	GFLOPs	mAP@0.5	F1-Score
Faster R-CNN	41.2	207.3	0.723	0.801
YOLOv11-l	64.5	103.2	0.768	0.832
RT-DETR	32.1	95.7	0.781	0.845
CenterNet	32.9	91.5	0.795	0.858
BSD-CenterNet	33.8	94.1	0.812	0.871

我们的BSD-CenterNet在参数量和计算量略有增加的情况下，取得了最好的综合性能。更重要的是，我们分析了不同尺寸陨石坑的检测表现：

陨石坑直径 (km)	模型	召回率	中心经度误差	中心纬度误差	直径误差
< 2	CenterNet	0.71	0.12	0.11	0.15
< 2	BSD-CenterNet	0.73	0.11	0.10	0.14
2-5	CenterNet	0.89	0.08	0.07	0.09
2-5	BSD-CenterNet	0.92	0.07	0.06	0.08
> 5	CenterNet	0.82	0.10	0.09	0.11
> 5	BSD-CenterNet	0.91	0.09	0.08	0.10

可以看到，BSD模块对所有尺寸的陨石坑都有提升，但对大尺寸陨石坑（>5km）的召回率提升尤为显著（从0.82到0.91）。这证实了双尺度设计能有效缓解大坑内部小坑造成的热图干扰问题。

4.2 识别网络性能：CATSformer的全面领先

我们在两个测试集上对比了多种识别网络架构。

模型	参数量 (M)	GFLOPs	Dtest1 准确率	Dtest2 准确率
ResNet-50	23.5	4.12	89.5%	88.1%
EfficientNet-Lite2	7.8	0.68	85.2%	83.7%
CS-ViT (基线)	10.2	12.00	94.8%	93.5%
CATSformer	10.5	6.93	98.2%	97.6%
CATSformer-s	6.8	3.45	95.1%	94.3%
CATSformer-s+KD	6.3	3.45	92.9%	90.9%

结论非常清晰：

Transformer优于CNN：即使是基线CS-ViT，也显著优于传统的CNN模型（ResNet-50），这说明Transformer的全局建模能力对理解陨石坑的空间布局至关重要。
CATSformer效率与精度双赢：我们提出的CATSformer，在参数量几乎不变的情况下，将计算量降低了近一半（12.00G -> 6.93G），同时将准确率提升了超过3个百分点。这完美体现了结构感知设计的价值：把计算资源用在刀刃上。
轻量版实用性高：CATSformer-s以更小的体积保持了高性能，经过知识蒸馏后（CATSformer-s+KD），在计算资源极其有限的平台上也能达到超过90%的可用精度。

4.3 消融实验：每个模块贡献几何？

为了厘清CATSformer中三个核心模块的具体贡献，我们进行了系统的消融实验。

模型配置	GFLOPs	Dtest1 准确率	Dtest2 准确率
CS-ViT (基线)	12.00	94.8%	93.5%
+ Token Selection	8.14	96.1%	94.9%
+ Token Selection + Central Attention	6.89	97.1%	96.0%
+全部 (CATSformer)	6.93	98.2%	97.6%

令牌选择：在几乎不损失精度的情况下，大幅降低了计算量。这说明丢弃背景令牌不仅省算力，还能起到正则化作用，防止模型过拟合于噪声。
中心注意力：进一步降低计算量，并带来显著的精度提升（+1%）。这表明对于本任务，局部上下文信息已经足够进行判别，全局注意力反而是冗余和干扰的。
结构位置编码：以极小的计算代价，换来了最终的精度飞跃。这证明了为模型显式地注入几何先验知识是极其有效的，尤其是在数据稀疏的任务中。

4.4 鲁棒性测试：应对真实世界的挑战

一个算法必须在非理想条件下稳定工作。我们系统测试了CraterSense在多种扰动下的表现。

1. 抗检测误差能力我们模拟了上游检测网络可能产生的四种误差：位置偏移、直径误差、漏检、误检。将CraterSense与传统的几何方法（锥对法、三角形哈希法）以及另一深度学习方法CraterIDNet进行对比。

扰动类型	锥对法	三角形法	CraterIDNet	CraterSense-CIN
位置噪声 (σ=0.2D)	51.2%	65.8%	78.5%	95.8%
直径噪声 (σ=0.2D)	48.7%	60.1%	76.9%	96.1%
漏检 (20%)	72.3%	80.5%	85.2%	94.3%
误检 (+5个)	45.6%	55.4%	70.1%	93.7%

传统方法极其脆弱：对位置和直径误差非常敏感，误检更是其“杀手”，因为错误的坑会彻底破坏其依赖的几何约束。
CraterSense表现稳健：在所有扰动下，准确率都保持在93%以上。这得益于我们在训练阶段就通过数据增强模拟了所有这些误差，模型已经学会了“去伪存真”，关注的是陨石坑之间稳定的相对结构，而非绝对的、可能有噪声的坐标值。

2. 抗姿态扰动能力我们测试了相机俯仰角在-30°到+30°范围内变化时系统的表现。在训练数据增强覆盖的±15°范围内，系统准确率保持在90%以上。即使超出该范围至±20°，准确率仍高于89%。这证明了系统对中等程度的姿态不确定性具有良好的容忍度。

3. 成像高度变化通过改变缩放系数μ，模拟了从50km到200km不同轨道高度下的成像。CraterSense在整个范围内的识别准确率波动小于2%，表明其尺度不变性良好。

4.5 系统级端到端测试

最后，我们在基于真实月球地形数据生成的合成图像上，进行了完整的“检测-识别-定位”系统测试。在NavArea1和NavArea2两个区域各100个测试场景中，系统整体的定位成功率分别达到95%和96%。这意味着，在绝大多数情况下，系统都能从一张没有任何先验信息的图像中，成功找到至少4个正确的陨石坑匹配对，并解算出航天器的位置。

5. 总结与展望

CraterSense的成功，源于一个根本性的思路转变：将复杂的几何匹配问题，转化为一个结构感知的图像分类问题。通过设计稀疏结构图像这一巧妙的中间表示，以及为其量身定制的CATSformer识别网络，我们实现了精度、速度和鲁棒性的最佳平衡。

几点关键的工程启示：

问题重构比算法微调更重要：与其在传统的“检测-匹配”框架下苦苦优化匹配算法，不如重新思考问题的本质。将陨石坑布局抽象为分类问题，绕开了组合爆炸的难题。
为数据特性设计模型：没有万能的模型。CATSformer的令牌选择、中心注意力、结构位置编码，每一项都是针对“稀疏”、“结构明确”这一数据特性的精准优化。这种领域定制化设计是获得极致性能的关键。
鲁棒性源于数据：再精巧的模型，也怕没见过世面。我们通过全方位、高强度的数据增强（模拟各种检测误差和姿态扰动），让模型在“温室”里经历了“风雨”的洗礼，这是其在真实复杂环境中表现稳定的根本保障。
系统思维：CraterSense是一个精心设计的系统。检测网络的双尺度头为识别提供可靠输入，识别网络的高置信度输出为几何验证提供高质量候选，最终通过PnP完成闭环。每个模块的改进都服务于最终的系统目标。

当然，这项工作仍有提升空间。未来的方向包括：进一步压缩模型，探索二值化或更极致的量化方案，以适配算力更弱的星载计算机；研究跨星球泛化能力，让在月球上训练的模型，经过少量调整就能用于火星或其他小天体；探索在线学习或持续学习机制，让探测器在任务过程中能自适应地学习新遇到的陨石坑特征。

从更广阔的视角看，CraterSense所代表的“结构感知稀疏建模”思想，不仅适用于月球导航，对于任何需要从稀疏、规则的几何结构中提取信息的任务——例如星空导航、工业零件识别、生物显微图像分析——都具有重要的借鉴意义。它证明了，在特定领域，放弃通用模型的“大而全”，追求专用模型的“小而美”，往往能走得更远。

查看全文

http://www.jsqmd.com/news/892395/