当前位置：首页 > news >正文

GEE数据集：2000年至今新闻来源的全球洪水事件数据集

news 2026/3/26 21:13:15

Groundsource：2.6百万条洪水记录，大语言模型如何从新闻中“读”出全球洪灾史

预印本说明：本文介绍的数据集目前仍处于预印本阶段（2026年3月9日提交至EarthArXiv），尚未经过正式的同行评审。研究者在引用或使用该数据集时，建议先查阅预印本原文，并保持审慎。

洪水，是全球范围内造成损失最严重的自然灾害之一。然而，与地震不同——地震有标准化的传感器网络进行系统记录——水文气象灾害至今缺乏一个统一的全球观测体系。传统的地面水文站网分布稀疏，卫星遥感数据则受云层覆盖、过境周期等因素制约，且往往只能捕捉到大规模、持续时间长的洪水事件。

那么，有没有一种方法，能从海量的、碎片化的信息中，拼凑出一幅全球洪水事件的完整图景？

答案，或许就藏在每天更新的新闻里。

从新闻到数据：Groundsource的诞生

近日，研究人员发布了Groundsource——一个全新的、开放获取的全球洪水事件数据集。它包含了从2000年至今的264万余条高分辨率历史洪水记录，覆盖全球150多个国家和地区。
该数据集弥补了全球洪水观测基础设施的一个关键空白：与地震事件不同，地震事件由标准化的传感器网络系统记录，水文气象灾害缺乏统一的全球观测系统。传统的物理河流水位计网络存在地理稀疏问题，而卫星衍生档案则受云层覆盖、过境频率以及倾向于大型、持续时间长的事件的偏差所限制。
这些数据并非来自传统的传感器或卫星，而是从超过500万篇新闻文章中，通过自动化流程提取出来的。
为了克服这些限制，Groundsource 管道利用 Gemini 大型语言模型（LLMs）系统地从非结构化新闻文本中提取结构化的时空数据。新闻文章通过 Google 的 WebRef 命名实体识别系统进行摄取，过滤出与洪水相关的部分，使用 Cloud Translation API 翻译成英语，然后由 Gemini 处理以分类事件、提取洪水日期、识别细粒度的淹没地点，并通过 Google Maps Geocoding API 与标准化的地理数据库进行地名协调。最终的事件记录在时空上聚合为一个平面表格数据集，具有每日时间分辨率和本地化空间边界，覆盖年份从 2000 年至今。
Groundsource 数据集可从 Zenodo 下载：Groundsource Zenodo Repository。描述完整方法的预印本可在 EarthArXiv 上获取。
这套数据集的独特之处在于，它巧妙地将**大语言模型（LLM）**的力量引入了灾害信息提取领域。研究人员构建了一套名为Groundsource的自动化处理管线，其核心流程如下：

信息抓取：通过Google的WebRef命名实体识别系统，从互联网上抓取与洪水相关的新闻文章。
多语言翻译：利用Cloud Translation API，将80多种语言的新闻统一翻译成英文，为后续处理扫清语言障碍。
结构化提取：调用Gemini大语言模型，从非结构化的新闻文本中，精准识别并提取出关键信息：洪水发生的时间、具体的受灾地点、事件类型等。
地理编码与聚合：通过Google Maps地理编码API，将文本中提到的地点名称（如“北京海淀区”、“某条街道”）匹配为标准化的地理坐标或行政区划边界，形成空间化的记录。最终，这些事件按时间和空间进行聚合，形成一个以“日”为时间分辨率的表格化数据集。

这一流程，将原本淹没在新闻海洋中的碎片化信息，变成了结构清晰、可计算、可分析的地理空间数据。

数据集速览：264万条记录意味着什么？

记录总数：2,646,302条独立的洪水事件观测
时间跨度：2000年至今，日分辨率
空间覆盖：全球150+国家和地区
平均空间范围：每条记录平均覆盖约142平方公里；其中82%的事件空间范围小于50平方公里——这意味着数据集能捕捉到大量中小规模的、局部性的洪水事件，而这恰恰是传统卫星遥感容易遗漏的。
数据来源：超过500万篇新闻文章，涵盖80多种语言

每条记录都包含以下字段：

字段	说明
`uuid`	唯一标识符
`area_km2`	受灾区域面积（平方公里）
`start_date`	洪水发生的起始日期（有文本证据支持）
`end_date`	洪水结束的日期（单日事件则与起始日期相同）
`geometry`	受灾区域的空间边界（WGS 84坐标系），可能是复杂的行政区划多边形，也可能是经缓冲区处理后的点位

注意：Groundsource是一个基于实体的数据集，而非基于气象事件。一次大范围的暴雨可能引发多个地理实体（如多个村镇、多个行政区）分别被记录为独立的事件条目。这种设计使得数据粒度更细，但也意味着使用者需要理解这种“实体化”的底层逻辑。

数据也有“偏见”：使用者需要知道的几件事

没有任何数据集是完美的。Groundsource的构建方式决定了它存在一些系统性的偏差和局限，研究者在应用时需要心中有数：

时间偏差：约64%的记录集中在2020-2025年。这并非意味着近年来洪水暴增，而是反映了数字化新闻在近五年的指数级增长。2000年代初期的洪水事件，因数字化存档稀缺和链接失效等问题，记录相对较少。
空间偏差：事件密度与区域数字新闻基础设施高度相关。在数字媒体稀疏、或当地新闻以非支持语言（支持80种语言）出版的地区，事件记录明显偏少。例如，Groundsource在巴布亚新几内亚的召回率仅为39%，在加蓬为50%，而在美国则高达96%。
事件严重性偏差：影响越大、越严重的洪水事件，被新闻报道和记录的可能性越高。针对GDACS（全球灾害预警与协调系统）红色警报级别（最高级）的洪水事件，Groundsource的召回率达到99%；而对于绿色警报（国家层面可控）的事件，召回率仍保持在82%。
地理编码误差的非独立性：地名解析错误可能呈现空间聚集性（例如，某种语言中常见的地名歧义），这意味着误差率在不同地区并非均匀分布。

理解这些偏差，是正确使用Groundsource进行科学研究的前提。

如何获取与使用

Groundsource数据集已在Zenodo平台开放下载，同时也在Google Earth Engine上提供，方便全球研究者直接调用。

Zenodo数据集：Groundsource Zenodo Repository
Earth Engine调用：
```
vargroundsource=ee.FeatureCollection("projects/sat-io/open-datasets/groundsource_2026")
```
示例代码：https://code.earthengine.google.com/?scriptPath=users/sat-io/awesome-gee-catalog-examples:/hydrology/GROUNDSOURCE-GLOBAL-FLOODS
预印本全文：EarthArXiv（待更新）
引用信息：
Mayo, R., Zlydenko, O., Bootbool, M., et al. (2026). Groundsource: A Dataset of Flood Events from News. EarthArXiv. (Unreviewed preprint)
Mayo, R., Zlydenko, O., Bootbool, M., et al. (2026). Groundsource: A Dataset of Flood Events from News [Data set]. Zenodo. https://doi.org/10.5281/zenodo.18647054
许可协议：Creative Commons Attribution 4.0 International (CC BY 4.0)