当前位置：首页 > news >正文

NeurIPS 2025 | 时空基础模型新范式FactoST：从“联合苦训“到“先通后专“

news 2026/7/3 1:09:46

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

FactoST v1: "Learning to Factorize Spatio-Temporal Foundation Models"
NeurIPS 2025| 📄 https://openreview.net/forum?id=d4CZoiaXeC
FactoST v2: "Learning to Factorize and Adapt: A Versatile Approach Toward Universal Spatio-Temporal Foundation Models"
Arxiv 2026| 📄 https://arxiv.org/abs/2601.12083
💻 开源代码: https://github.com/CityMind-Lab/FactoST

TL;DR: 港科广&华为提出FactoST系列，首创"先练时间、再补空间"的因子化时空基础模型范式，破解传统联合预训练的"负迁移"困局。v2版本彻底升级为Encoder-Only架构，实现100%预训练权重全转移与任意长度预测，并引入概率分位数预测量化不确定性。在少样本场景下，相比SOTA模型最高降低46.4%误差，推理速度提升68%，相关技术已在电力、航空、能源等业务场景落地验证，首次让时空大模型真正"快准稳"。

本文由香港科技大学（广州）、华为2012实验室、华东师范大学、北京大学联合出品

点击文末阅读原文跳转本文arXiv链接

🌍 背景：时空数据的"万物互联"困境

交通流量、气象变化、电网负荷、空气质量……这些时空（Spatio-Temporal, ST）数据不仅记录着"何时"的变化，更蕴含着"何地"的关联。传统方法（STGNN）针对每个特定数据集单独训练，就像"一个师傅只教一本书"，难以应对跨城市、跨领域的泛化需求。

近年来，时空基础模型（STFMs）应运而生，试图通过海量数据预训练实现"一次学习，到处可用"。然而，现有方案大多采用联合时空预训练（Joint ST Pretraining）——同时建模空间图结构和时间序列。这种"眉毛胡子一把抓"的做法带来了严峻挑战：

🚧 核心挑战：时空模式的"天然矛盾"

时间模式是通用的：周期性、趋势性等1D时间结构在交通、能源、气象等不同域中共享相似的物理规律。
空间模式是域特定的：道路网络的拓扑结构与电网完全不同，相邻气象站的扩散动态与太平洋气候指数的遥相关效应更是天差地别。
计算成本爆炸：联合建模导致复杂度高达，在大型图网络上显存激增，甚至引发"过压缩（over-squashing）"问题。

关键洞察：强行让模型在预训练阶段"记住"所有可能的空间结构，不仅计算昂贵，反而会因拓扑冲突导致负迁移（Negative Transfer）。

💡 FactoST 核心方案：因子化解耦（Factorize & Adapt）

针对上述矛盾，团队提出"先时间、后空间"的两阶段因子化范式FactoST系列通过"时间预训练+空间适配"的因子化思想，成功破解了时空基础模型"大而全却不好用"的困局：

Stage 1: Universal Temporal Pretraining (UTP)

目标：学习跨域通用的"时间常识"（周期、趋势、多频波动）

空间无关：预训练时完全摒弃图结构，仅对节点级时间序列进行建模，避免被特定拓扑"污染"
多频率增强：通过FFT频域截断生成多视图，让模型掌握不同时间尺度的规律
多域提示学习：用可学习的Prompt向量编码域上下文，实现跨域知识共享

Stage 2: Spatio-Temporal Adaptation (STA)

目标：轻量级注入域特定的空间感知

ST元数据融合（STMF）：结合节点ID、日历信息（小时/星期/月份）生成时空标识符
ST过滤（STF）：动态计算三种亲和力（空间、时间、时滞），自适应地重新加权特征
域对齐与记忆回放：通过层次化对齐（HDA/DSPA）bridged 预训练与目标域的分布差异，并用记忆库（CMR）防止灾难性遗忘

🚀 从 v1 到 v2：从"能用"到"好用"的质变

在NeurIPS 2025（v1）的基础上，团队于Arxiv 2026推出FactoST-v2，实现了架构层面的关键跃迁：

维度	FactoST v1 (NeurIPS)	FactoST v2 (Arxiv)	升级意义
架构	Encoder-Decoder（固定长度）	Encoder-Only （任意长度）	支持可变输入输出，100%权重迁移
预测	确定性点估计	概率分位数预测	输出置信区间，支持不确定性量化
适配器	层次域对齐（HDA）	域特定提示对齐（DSPA）	更轻量、更直接的域适应
预训练任务	混合（重建+预测）	纯预测（Pinball Loss）	消除任务冗余，优化目标更纯粹
位置编码	正余弦位置编码	p-RoPE（部分旋转）	高频部分建模顺序，低频保留语义

关键创新详解：

随机序列掩码：在预训练时随机遮盖历史序列的初始片段，迫使模型适应不同有效上下文长度，实现"任意长度泛化"
全权重转移：v1中解码器常被丢弃，预测头长度不匹配参数会失效，v2的纯编码器设计确保预训练权重100%复用，通过最大化预测头长度截断和滚动预测实现预测头参数全量转移，下游只需训练轻量级适配器（<5%参数）
分位数概率预测（Quantile Loss）：v1采用MSE进行确定性点估计，无法评估预测可信度；v2引入Pinball Loss同时建模多个分位数（如10%、50%、90%），输出概率区间预测，让模型在交通预警、电网调度等高风险场景中提供"置信度参考"，从"猜一个数"升级为"给出一个范围及把握"
线性复杂度：因子化设计将复杂度从降至，轻松应对883+节点的大型网络