用Attention和MoE预报天气,刷新公里级预测SOTA|CVPR‘26 Highlight
STCast团队 投稿
量子位 | 公众号 QbitAI
近日,计算机视觉领域顶级国际会议CVPR 2026公布了论文录用结果。本次会议共收到16,092篇投稿,最终录用4,090篇,整体录用率为25.42%,其中仅有约2.5%的论文被评为Highlight Paper。
由香港科技大学郭嵩院士(IEEE Fellow)团队与上海AI实验室合作完成的论文《STCast: Adaptive Boundary Alignment for Global and Regional Weather Forecasting》成功入选CVPR 2026 Highlight Paper。
该工作提出了一种全新的时空天气预报框架STCast,通过自适应边界对齐和时间混合专家模型,在全球预报、区域预报、台风路径预测和集合预报四大任务上全面超越现有方法,取得了SOTA性能。
研究背景与动机
准确的公里级区域天气预报是一项具有深远社会经济影响的重大科学挑战。现有的区域预报策略主要分为两类:
- 训练专用区域模型
忽略了对准确预报至关重要的跨区域依赖关系
- 从全球预报中裁剪区域
受限于静态且不精确的区域边界,泛化能力差
传统数值天气预报(NWP)方法通过求解偏微分方程来处理边界问题,但计算成本极高。而现有的AI方法通常只使用相邻区域来定义边界,这与成熟的”大气-海洋-陆地-生物圈耦合理论”相矛盾——该理论表明,区域大气中的任何一点都受到整个地球系统的影响。例如,西伯利亚的寒潮可以引发东亚的寒潮,青藏高原的地表加热可以同时改变东亚季风和北美急流。
为了解决这些挑战,团队提出了STCast框架,它明确地模拟了地球系统中不断演变的全球-区域相关性。
三种区域预报策略对比
团队对比了三种主流的区域天气预报策略:
上图中,图(1)是三种区域预报策略示意图:
(a) 现有AI方法:从全球预报中裁剪相邻区域,与区域变量一起进行预报;
(b) 从头直接训练:仅使用目标区域的数据训练模型;
(c) 团队的方法(STCast):通过分布密集连接全球-区域模型进行预报。
图(2)是三种策略的区域预报性能对比。
定量结果表明,STCast在所有变量的平均RMSE和ACC上都取得了最佳性能,显著优于直接训练和OneForecast方法。这验证了团队的动态、地球感知边界机制优于基于静态邻居的耦合方法。
STCast整体架构
STCast是一个统一的时空天气预报框架,能够同时处理四大关键任务:
△图2:STCast整体架构图
(a) 低分辨率全球预报:包含编码器、处理器和解码器,集成了Temporal MoE模块;
(b) 高分辨率区域预报:通过Spatial-Aligned Attention模块融合全球和区域信息;
(c) 台风路径预测:利用预测的高分辨率MSL来推断台风路径;
(d) 长期预报和集合预报:通过注入Perlin噪声生成多个预报集合。
STCast的核心创新在于两个关键模块:Spatial-Aligned Attention (SAA)和Temporal Mixture-of-Experts (TMoE)。
核心创新一:Spatial-Aligned Attention (SAA)
Spatial-Aligned Attention模块将全局特征作为Query和Key,将区域特征作为Value,通过线性交叉注意力动态耦合全球和区域特征。
△图3:Spatial-Aligned Attention示意图
SAA的关键机制包括:
- 大圆距离度量
更准确地测量地球表面上的空间关系
- 指数距离衰减函数
初始化可学习的全球-区域分布,确保远距离区域的影响较弱
- 高效注意力机制
将计算复杂度从O(n²)降低到O(n)
通过这种方式,SAA建立了一个最优的全球-区域分布,该分布在训练过程中不断优化,能够捕捉全球和区域大气模式之间的潜在相关性。
核心创新二:Temporal Mixture-of-Experts (TMoE)
考虑到大气变量在不同月份存在显著差异,Temporal Mixture-of-Experts将每个月的预报视为相对独立的任务,并使用混合专家模型来组织这些任务。
△图4:Temporal Mixture-of-Experts示意图
TMoE的关键机制包括:
- 离散高斯分布
为每个月学习一个高斯分布来表示其时间特征
- 旋转对齐
将月份序列旋转对齐到输入变量,确保激活概率随时间距离单调递减
- 多专家激活
增强路由多样性,防止专家同质化
实验结果
1. 低分辨率全球预报
团队在ERA5数据集上评估了STCast的全球预报性能,与Pangu-Weather、Graphcast、Fuxi和OneForecast等主流方法进行了对比。
△表1:全球天气预报性能对比
结果表明,STCast在所有基准测试中都表现出一致的优越性,特别是在长期预测方面取得了显著的提升。这得益于团队的月份特定训练策略,它能够有效地捕捉大气系统中的季节依赖和月际变化。
2. 高分辨率区域预报
△图5:东亚区域的高分辨率预报实验:直接训练、OneForecast和STCast方法对比
在东亚区域的高分辨率预报实验中,团队对比了直接训练、OneForecast和STCast三种方法。结果显示,实现动态边界条件的STCast相比直接训练的STCast(无动态边界)和OneForecast,RMSE降低了0.05,ACC提高了0.1。
3. 极端事件评估:台风路径预测
团队评估了STCast在两个近期台风事件上的表现:2024年5月的台风艾云尼(Ewiniar)和2024年11月的台风银杏(Yinxing)。
△图6:台风路径预测结果
结果显示,STCast的72小时路径预报与观测路径的吻合度明显高于ECMWF、FourCastNet、Pangu-Weather和FengWu。特别是在台风银杏的长期预测中,STCast的平均误差仅为96.5公里,而次优的Pangu-Weather为160公里。
消融研究
团队进行了全面的消融研究来验证每个模块的有效性:
△表2:消融研究结果
结果表明,移除任何组件都会导致区域和全球任务的性能下降。最显著的下降发生在移除全球-区域分布(区域任务:10天RMSE增加0.22)和月份嵌入(全球任务:10天RMSE增加0.13)时,这证实了每个组件在提升STCast整体有效性方面的关键作用。
结论
在这项工作中,团队在Spatial-Aligned Attention模块中引入了自适应注意力图,为区域预报提供动态边界条件。除了区域任务外,团队还将Temporal Mixture-of-Experts嵌入到时空预报框架STCast中,将天气预报视为一个多任务问题,并将月度子任务委托给专门的专家。
因此,STCast同时解决了四个不同的挑战:低分辨率全球预报、高分辨率区域预报、极端事件评估和集合天气预报。实验和消融研究证实,STCast在所有评估场景中都始终优于竞争方法。
论文链接:https://arxiv.org/pdf/2509.25210v3
代码仓库:https://github.com/chenhao-zju/STCast
