RS-WorldModel: a Unified Model for RemoteSensing Understanding and Future SenseForecasting
Abstract
遥感世界模型旨在同时解释已观测到的变化并预测合理的未来场景,这两个任务共享时空先验。然而,现有方法通常将二者分开处理,限制了跨任务迁移能力。本文提出RS-WorldModel,这是一个面向遥感的统一世界模型,能够同时处理时空变化理解和文本引导的未来场景预测两个任务。同时,本文构建了RSWBench-1.1M,这是一个包含 110 万样本的数据集,具有丰富的语言标注,覆盖上述两类任务。RS-WorldModel 的训练分为三个阶段:
Geo-Aware Generative Pre-training(GAGP,地理感知生成式预训练):利用地理信息和成像采集元数据作为条件,引导未来场景预测;
Synergistic Instruction Tuning(SIT,协同指令微调):联合训练变化理解和未来预测两个任务;
Verifiable Reinforcement Optimization(VRO,可验证强化优化):通过可验证的、任务特定的奖励对输出进行进一步优化。
尽管 RS-WorldModel 仅有2B 参数,但它在大多数时空变化问答指标上超过了参数规模最高达其120 倍的开源模型。在文本引导的未来场景预测任务中,它取得了43.13 的 FID,优于所有开源基线模型以及闭源的 Gemini-2.5-Flash Image(Nano Banana)。
1 Introduction
世界模型通过构建环境的内部表征并预测其未来动态,已经成为自动驾驶、机器人和生成式仿真等应用领域中的活跃研究方向 [17]。在自动驾驶领域,GAIA-1 [20] 和 Drive-WM [47] 能够在给定规划动作和地图上下文的条件下预测驾驶场景。Sora [7] 等视频生成系统表明,大规模生成模型可以作为通用的物理模拟器。在具身智能领域,DayDreamer [52] 主要在学习到的世界模型中训练机器人运动和操作策略,而 Cosmos [1] 则提出了一种基于大规模视频数据训练的通用世界基础模型。这些研究共同指向一个核心认识:学习预测未来状态能够促使模型内化环境动态规律,因此世界模型被认为是迈向通用自主智能体的一条有前景的路径。地球观测领域同样有望从中显著受益,因为卫星会随时间反复拍摄同一地点;然而,这一方向目前仍然尚未得到充分探索(见图 1)。
近期的遥感生成模型 [62,23] 已经能够合成较为真实的卫星影像,但它们通常局限于像素级图像合成,而缺乏对“发生了什么变化”以及“为什么发生变化”的推理能力。相反,面向理解的模型 [26,21,60] 能够解释已观测到的场景,但并不是为未来状态或反事实状态预测而设计的。在许多遥感应用场景中,往往同时需要准确的场景解释和可控的未来预测[6,44,33]。这两个任务都依赖于来自地理环境和成像采集背景的共享先验信息,例如地理位置、季节性变化以及传感器特性。然而,将二者分开训练无法充分利用这种共享结构,导致生成任务难以控制,同时也使理解任务无法受益于密集的生成式监督信号 [59,24]。
构建一个统一的遥感世界模型面临三个核心挑战。首先,据我们所知,目前尚没有现有数据集能够在大规模层面同时支持时空变化理解和未来场景预测;大多数基准数据集 [10,38,11] 只针对单一任务,并且缺乏位置感知建模所需的丰富地理元数据。第二,遥感影像具有复杂的时空变化特征,这些变化受到地理位置、传感器参数和季节周期等因素的共同驱动。因此,仅依靠有限数据很难学习到有效的生成先验 [56,45,13]。现有方法通常将理解任务和生成任务分开训练 [64,34],从而限制了二者之间的知识迁移。第三,标准的基于人类反馈的强化学习方法通常依赖学习得到的偏好模型,但这类偏好模型难以捕捉遥感领域特有的地理一致性和物理合理性约束 [24]。
我们通过RS-WorldModel和RSWBench-1.1M来应对上述挑战。
在数据方面,我们构建了RSWBench-1.1M,这是一个包含110 万个高分辨率样本的大规模数据集,覆盖时空变化理解和文本引导的未来场景预测两类任务。该数据集包含细粒度的地理元数据,并基于 fMoW [11] 构建,以确保全球范围内的场景多样性。
在模型方面,我们提出了RS-WorldModel,这是首个面向遥感领域的统一世界模型。该模型通过三个阶段进行训练:
Geo-Aware Generative Pre-training(GAGP,地理感知生成式预训练)
引入地理条件信息,以建立时空预测先验;Synergistic Instruction Tuning(SIT,协同指令微调)
联合优化理解任务和生成任务,从而提高模型的可控性,并使两个任务相互增强;Verifiable Reinforcement Optimization(VRO,可验证强化优化)
不依赖学习得到的偏好模型,而是利用任务特定的可验证奖励来优化输出,从而提高模型鲁棒性。
实验结果表明,尽管 RS-WorldModel 仅有2B 参数,但它在大多数时空变化问答指标上超过了规模最高达其120 倍的开源模型;同时,在文本引导的未来场景预测任务中取得了43.13 的 FID,在 FID 指标上优于所有开源基线模型以及闭源的 Gemini-2.5-Flash Image。
本文的主要贡献如下:
我们提出了RS-WorldModel,这是首个面向遥感领域的统一世界模型,能够同时处理时空变化理解和文本引导的未来场景预测任务;
我们构建了RSWBench-1.1M,这是一个包含 110 万样本的大规模数据集,覆盖上述两类任务,并具有丰富的地理元数据和细粒度语言标注;
我们设计了一种三阶段训练范式,即GAGP、SIT 和 VRO,使一个仅有 2B 参数的模型能够超过规模大得多的开源模型以及若干闭源模型。
2 RSWBench-1.1M Dataset
训练一个统一的遥感世界模型需要能够支撑两项核心能力的数据:时空变化问答(Spatiotemporal Change Question-Answering, ST-CQA)和文本引导的未来场景预测(Text-Guided Future Scene Forecasting, TFSF)。为此,我们提出了一套可扩展的自动化标注流程,并构建了一个数据集套件,其中包括110 万样本的训练语料库和5.6K 样本的评估基准。二者均来源于fMoW数据档案,并严格遵循官方数据划分协议,以防止数据泄漏(见图 2)。
2.1 Scalable Data Construction Pipeline
构建一个百万级、且具有时空一致性的数据集需要克服两个挑战:大气噪声和缺乏密集语义标注。为此,我们采用一个两阶段流程,将物理筛选与语义精炼统一起来。
阶段 1:物理标准化。
我们首先将来自相同地理坐标的多时相观测数据进行配对。为了确保模型学习的是有效的地表特征,而不是成像伪影,我们对采集元数据进行标准化处理,例如太阳角度,并根据可见性对样本进行筛选。具体而言,我们使用 OmniCloudMask [50] 估计图像 I 的逐像素云覆盖比例:
阶段 2:语义精炼。
为了在不依赖昂贵人工标注的情况下合成高质量语言监督信号,我们采用一种“生成—精炼”策略。首先,视觉语言模型根据图像对和元数据生成结构化的 JSON 标注草稿。随后,一个更大、更强的模型,即 Qwen2.5-72B-Instruct,对这些草稿进行进一步精炼。
其中一个关键设计是元数据语言化转换:该流程会显式地将原始数值型传感器数据转换为自然语言线索。例如,将太阳高度角转换为对阴影变化的描述。这样可以避免模型过度拟合具体数值,而是学习更具语义意义和可泛化性的地理与成像条件。
2.2 RSWBench-1.1M Dataset Suite
利用上述流程,我们构建了两个不同的子集,用于支持遥感世界模型的训练与评估(见表 1)。
训练集。
训练语料完全来自 fMoW 的训练划分,包含约110 万个样本。其中包括37.1 万个生成式预训练样本,以及74.2 万个用于协同指令微调的混合样本。此外,还保留了一个1.6 万样本的子集,用于强化对齐训练。
评估集。
为了建立严格的评估标准,我们完全从 fMoW 的测试划分中构建了6.6K 个样本。该基准数据集保持任务均衡,其中包含5K 个 ST-CQA 样本和1.6K 个 TFSF 样本。通过保留原始测试集的全球多样性,RSWBench-1.1M 能够稳定评估模型的跨区域泛化能力和未来场景预测保真度。
3 Method
3.1 Preliminary
设 I 表示一幅遥感图像,m 表示与其相关的地理空间元数据,例如坐标、地面采样距离、时间戳、太阳角度和云量统计等。我们将时空变化问答(Spatiotemporal Change Question-Answering, ST-CQA)和文本引导的未来场景预测(Text-Guided Future Scene Forecasting, TFSF)都形式化为指令条件下的序列生成任务。
给定一个包含图像占位符<image>的提示词 P,以及对应的元数据 m,模型的目标是建模输出序列 y 的条件概率:
其中,θ表示模型参数。
对于ST-CQA,输出 y 由自然语言 token 组成,也就是模型生成文字回答;对于TFSF,输出 y 由离散视觉 token 组成,也就是模型生成未来遥感图像对应的视觉表示。
统一 token 化与训练目标。
任务特定提示词。
模型接收文本提示词,这些提示词将视觉观测、地理空间元数据和任务相关语言结合在一起。
3.2 RS-WorldModel: A Unified World Model for Remote Sensing
RS-WorldModel是一种统一的世界模型,旨在从卫星影像中感知、理解并预测地球表面的时空动态变化。不同于主要在自然场景上训练的传统视觉语言模型,RS-WorldModel 在一个统一的自回归框架中,显式编码了支配遥感观测的物理规则,包括太阳角度、大气条件、土地覆盖演化以及成像时间变化等因素。
RS-WorldModel 基于Qwen3-VL-2B-Instruct构建,参数量仅为2B。该模型将卫星图像编码为视觉 token,并与地理空间元数据进行融合,然后以自回归方式生成混合模态输出:对于ST-CQA任务,模型输出自然语言回答;对于未来场景预测任务,模型输出离散视觉 token。通过将“理解”和“预测”都视为共享潜在空间中的同一种next-token prediction任务,RS-WorldModel 在感知与模拟之间建立了双向联系。这种统一建模方式将遥感感知与场景模拟连接起来,有助于推动遥感智能的发展。
3.3 Learning Remote Sensing World Dynamics
为了注入稳健的物理先验和语义先验,RS-WorldModel 通过三个互补目标进行训练:
- Geo-Aware Generative Pre-training(GAGP,地理感知生成式预训练):利用地理信息和成像采集元数据作为条件,引导未来场景预测;
- Synergistic Instruction Tuning(SIT,协同指令微调):联合训练理解任务和预测任务;
- Verifiable Reinforcement Optimization(VRO,可验证强化优化):通过可验证的、任务特定的奖励进一步优化模型输出。
这些训练目标从低层次的物理模拟到高层次的任务对齐,逐步构建模型的世界建模能力,如图 3 所示。
Geo-Aware Generative Pre-training(GAGP,地理感知生成式预训练):
协同指令微调(Synergistic Instruction Tuning, SIT)
可验证强化优化(Verifiable Reinforcement Optimization, VRO)
VRO 使用Group Relative Policy Optimization(GRPO)对经过 SIT 训练后的策略进行进一步优化,并且不需要额外的价值网络。该优化过程同时作用于两个任务,并采用任务特定的奖励信号。这些奖励直接来自参考信号和提示词元数据,例如:在 TFSF 任务中使用余弦相似度,在 ST-CQA 任务中使用 LLM 裁判,而不是依赖学习得到的奖励模型。这样可以尽量减少奖励欺骗,并确保更可靠的对齐效果。
4 Experiments
4.1 Experimental Setups
评估基准。我们在两个任务上评估 RS-WorldModel。
时空变化问答(Spatiotemporal Change Question-Answering, ST-CQA)用于衡量模型描述双时相遥感变化的能力。我们在5K 子集上报告 GPT-Score、BLEU-1、METEOR、ROUGE-L、S-BERT、SimCSE、ST5-SCS 以及平均回答长度等指标(见表 2)。
文本引导的未来场景预测(Text-Guided Future Scene Forecasting, TFSF)用于衡量模型能否根据文本指令和地理背景,合成合理的后时相图像。我们在1.6K 子集上报告 FID、CosSim [28],以及四个基于 GPT 的评分指标:Similarity、Quality、OA 和 AA(见表 3)。
基线模型。对于 ST-CQA,我们与闭源模型进行比较,包括 GPT-5.1 [35] 和 Gemini-3-Flash [18];同时也与参数规模从 2B 到 235B 的通用开源视觉语言模型进行比较,包括 Qwen-VL 系列 [4]、LLaVA-OV [3] 和 InternVL3.5 [46];此外,还比较了两个遥感领域专用模型 EarthDial-RGB [40] 和 TEOChat [22]。对于 TFSF,基线模型包括闭源图像生成模型 Gemini-2.5-Flash Image [12]、GPT-Image-1.5 和 GPT-Image-1-mini;以及不同生成范式下的开源模型,包括基于扩散模型的 CRS-Diff [42]、基于适配器的 SD3.5-Large-IPA [43] 和 FLUX.1-Kontext [27],以及统一模型 BAGEL [16]。
实现细节。RS-WorldModel 基于Qwen3-VL-2B-Instruct构建,并且在所有训练阶段都冻结视觉编码器和多模态投影器。
GAGP 阶段使用371K 个生成样本进行训练;SIT 阶段在742K 个生成与理解混合样本上进行微调;VRO 阶段则在16K 个生成与理解样本上应用 GRPO,并加入 KL 惩罚项,同时结合语义一致性和感知质量奖励。所有实验均在8 张 NVIDIA A800 80GB GPU上进行,并使用DeepSpeed ZeRO-3和Flash Attention 2。完整的超参数设置见补充材料。
4.2 主要结果
定量结果我们分别报告两个任务上的实验结果。
(1)理解任务
表 2 报告了ST-CQA任务的结果。尽管 RS-WorldModel 仅有2B 参数,但它在所有开源基线模型中,在BLEU-1、ROUGE-L以及三个上下文语义相似度指标上均排名第一。与同等规模的Qwen3-VL-2B相比,RS-WorldModel 的提升十分明显:ROUGE-L 提升了 21%,S-BERT 提升了 14%。RS-WorldModel 在大多数指标上甚至超过了参数规模大16–120 倍的模型。例如,Qwen3-VL-32B 在 ST5-SCS 上得分为84.10,而 RS-WorldModel 达到88.32。
我们认为,这主要得益于三阶段训练流程。首先,基于371K 遥感生成样本的领域特定预训练,即GAGP,将时间推理能力锚定在地理空间上下文中,而这种能力是通用现成 VLM 无论规模多大都不具备的。随后,SIT联合指令微调将生成侧的空间知识迁移到理解任务中,从而提高了描述的完整性。最后,强化学习阶段VRO通过基于裁判模型的奖励进一步优化输出,并惩罚与元数据不一致的描述。
两个遥感领域专用基线模型EarthDial-RGB和TEOChat的 GPT-Score 均低于 40,说明现有遥感模型并不是为开放式时间变化描述任务设计的。在闭源模型中,GPT-5.1获得了最高的 GPT-Score,但其平均回答长度达到817 个 token,几乎是 RS-WorldModel 的 4 倍,同时其 n-gram 指标和上下文语义相似度指标更低,说明它的回答更冗长,但描述不够精确。
(2)预测任务
表 3 报告了TFSF任务的结果。RS-WorldModel 在所有开源模型中,在每一项指标上均排名第一。与CRS-Diff相比,其 FID 降低了48%;与FLUX.1-Kontext相比,FID 降低了47%,同时取得了最高的CosSim和 GPT 评分。
不同生成范式之间的比较揭示了明显的权衡关系。CRS-Diff是一种基于变化指令条件控制的扩散模型,它能够生成感知上较为合理的图像,但在 Similarity 指标上得分最低,说明其对文本变化描述的遵循能力有限。BAGEL与本文方法类似,也是一种统一模型,它在 Similarity 指标上表现较有竞争力,达到44.25,但其 FID 明显更高,为78.47,说明其生成结果虽然更符合文本,但感知质量较弱。
相比之下,RS-WorldModel 在两个目标之间取得了更好的平衡:其自回归建模方式结合基于 VRO 的奖励优化,同时通过 (s_{\mathrm{it}}) 鼓励文本忠实性,并通过 (s_{\mathrm{ir}}) 提升感知真实感。RS-WorldModel 甚至在 FID 指标上超过了闭源模型Gemini-2.5-Flash Image,二者分别为43.13和46.14。GPT-Image-1.5在 Similarity 和 OA 指标上领先,但其 FID 几乎是 RS-WorldModel 的两倍,说明它具有更强的文本遵循能力,但牺牲了感知保真度。
定性结果
为了定性评估 RS-WorldModel 在理解和预测两个方面的能力,我们展示了来自两个核心任务的代表性示例。
(1)理解任务
在变化理解场景中(图 4),给定同一城市区域相隔约三年拍摄的一对高分辨率卫星图像,RS-WorldModel 能够准确描述整体布局的一致性,同时识别消防站附近细微的地表纹理变化,并正确地将阴影长度和方向的差异归因于太阳高度角和成像时间的变化。相比之下,一些强基线模型要么忽略了所有变化,要么产生了关于重大结构变化的幻觉描述。
(2)预测任务
在文本引导的未来场景预测场景中(图 5),当输入详细描述休闲和商业场景的文本条件时,RS-WorldModel 能够生成具有照片真实感的卫星影像,并较好地保持网球场布局、停车场配置、植被密度、建筑屋顶、阴影方向和大气光照条件。相比其他扩散模型和自回归模型,RS-WorldModel 在结构保真度和物理一致性方面表现更优。
