当前位置: 首页 > news >正文

GEE数据集:2000年至今新闻来源的全球洪水事件数据集

Groundsource:2.6百万条洪水记录,大语言模型如何从新闻中“读”出全球洪灾史

预印本说明:本文介绍的数据集目前仍处于预印本阶段(2026年3月9日提交至EarthArXiv),尚未经过正式的同行评审。研究者在引用或使用该数据集时,建议先查阅预印本原文,并保持审慎。

洪水,是全球范围内造成损失最严重的自然灾害之一。然而,与地震不同——地震有标准化的传感器网络进行系统记录——水文气象灾害至今缺乏一个统一的全球观测体系。传统的地面水文站网分布稀疏,卫星遥感数据则受云层覆盖、过境周期等因素制约,且往往只能捕捉到大规模、持续时间长的洪水事件。

那么,有没有一种方法,能从海量的、碎片化的信息中,拼凑出一幅全球洪水事件的完整图景?

答案,或许就藏在每天更新的新闻里。


从新闻到数据:Groundsource的诞生

近日,研究人员发布了Groundsource——一个全新的、开放获取的全球洪水事件数据集。它包含了从2000年至今的264万余条高分辨率历史洪水记录,覆盖全球150多个国家和地区。
该数据集弥补了全球洪水观测基础设施的一个关键空白:与地震事件不同,地震事件由标准化的传感器网络系统记录,水文气象灾害缺乏统一的全球观测系统。传统的物理河流水位计网络存在地理稀疏问题,而卫星衍生档案则受云层覆盖、过境频率以及倾向于大型、持续时间长的事件的偏差所限制。
这些数据并非来自传统的传感器或卫星,而是从超过500万篇新闻文章中,通过自动化流程提取出来的。
为了克服这些限制,Groundsource 管道利用 Gemini 大型语言模型(LLMs)系统地从非结构化新闻文本中提取结构化的时空数据。新闻文章通过 Google 的 WebRef 命名实体识别系统进行摄取,过滤出与洪水相关的部分,使用 Cloud Translation API 翻译成英语,然后由 Gemini 处理以分类事件、提取洪水日期、识别细粒度的淹没地点,并通过 Google Maps Geocoding API 与标准化的地理数据库进行地名协调。最终的事件记录在时空上聚合为一个平面表格数据集,具有每日时间分辨率和本地化空间边界,覆盖年份从 2000 年至今。
Groundsource 数据集可从 Zenodo 下载:Groundsource Zenodo Repository。描述完整方法的预印本可在 EarthArXiv 上获取。
这套数据集的独特之处在于,它巧妙地将**大语言模型(LLM)**的力量引入了灾害信息提取领域。研究人员构建了一套名为Groundsource的自动化处理管线,其核心流程如下:

  1. 信息抓取:通过Google的WebRef命名实体识别系统,从互联网上抓取与洪水相关的新闻文章。
  2. 多语言翻译:利用Cloud Translation API,将80多种语言的新闻统一翻译成英文,为后续处理扫清语言障碍。
  3. 结构化提取:调用Gemini大语言模型,从非结构化的新闻文本中,精准识别并提取出关键信息:洪水发生的时间、具体的受灾地点、事件类型等。
  4. 地理编码与聚合:通过Google Maps地理编码API,将文本中提到的地点名称(如“北京海淀区”、“某条街道”)匹配为标准化的地理坐标或行政区划边界,形成空间化的记录。最终,这些事件按时间和空间进行聚合,形成一个以“日”为时间分辨率的表格化数据集。

这一流程,将原本淹没在新闻海洋中的碎片化信息,变成了结构清晰、可计算、可分析的地理空间数据。


数据集速览:264万条记录意味着什么?

  • 记录总数:2,646,302条独立的洪水事件观测
  • 时间跨度:2000年至今,日分辨率
  • 空间覆盖:全球150+国家和地区
  • 平均空间范围:每条记录平均覆盖约142平方公里;其中82%的事件空间范围小于50平方公里——这意味着数据集能捕捉到大量中小规模的、局部性的洪水事件,而这恰恰是传统卫星遥感容易遗漏的。
  • 数据来源:超过500万篇新闻文章,涵盖80多种语言

每条记录都包含以下字段:

字段说明
uuid唯一标识符
area_km2受灾区域面积(平方公里)
start_date洪水发生的起始日期(有文本证据支持)
end_date洪水结束的日期(单日事件则与起始日期相同)
geometry受灾区域的空间边界(WGS 84坐标系),可能是复杂的行政区划多边形,也可能是经缓冲区处理后的点位

注意:Groundsource是一个基于实体的数据集,而非基于气象事件。一次大范围的暴雨可能引发多个地理实体(如多个村镇、多个行政区)分别被记录为独立的事件条目。这种设计使得数据粒度更细,但也意味着使用者需要理解这种“实体化”的底层逻辑。


数据也有“偏见”:使用者需要知道的几件事

没有任何数据集是完美的。Groundsource的构建方式决定了它存在一些系统性的偏差和局限,研究者在应用时需要心中有数:

  • 时间偏差:约64%的记录集中在2020-2025年。这并非意味着近年来洪水暴增,而是反映了数字化新闻在近五年的指数级增长。2000年代初期的洪水事件,因数字化存档稀缺和链接失效等问题,记录相对较少。

  • 空间偏差:事件密度与区域数字新闻基础设施高度相关。在数字媒体稀疏、或当地新闻以非支持语言(支持80种语言)出版的地区,事件记录明显偏少。例如,Groundsource在巴布亚新几内亚的召回率仅为39%,在加蓬为50%,而在美国则高达96%。

  • 事件严重性偏差:影响越大、越严重的洪水事件,被新闻报道和记录的可能性越高。针对GDACS(全球灾害预警与协调系统)红色警报级别(最高级)的洪水事件,Groundsource的召回率达到99%;而对于绿色警报(国家层面可控)的事件,召回率仍保持在82%。

  • 地理编码误差的非独立性:地名解析错误可能呈现空间聚集性(例如,某种语言中常见的地名歧义),这意味着误差率在不同地区并非均匀分布。

理解这些偏差,是正确使用Groundsource进行科学研究的前提。


如何获取与使用

Groundsource数据集已在Zenodo平台开放下载,同时也在Google Earth Engine上提供,方便全球研究者直接调用。

  • Zenodo数据集:Groundsource Zenodo Repository

  • Earth Engine调用

    vargroundsource=ee.FeatureCollection("projects/sat-io/open-datasets/groundsource_2026")

    示例代码:https://code.earthengine.google.com/?scriptPath=users/sat-io/awesome-gee-catalog-examples:/hydrology/GROUNDSOURCE-GLOBAL-FLOODS

  • 预印本全文:EarthArXiv(待更新)

  • 引用信息

    Mayo, R., Zlydenko, O., Bootbool, M., et al. (2026). Groundsource: A Dataset of Flood Events from News. EarthArXiv. (Unreviewed preprint)

    Mayo, R., Zlydenko, O., Bootbool, M., et al. (2026). Groundsource: A Dataset of Flood Events from News [Data set]. Zenodo. https://doi.org/10.5281/zenodo.18647054

  • 许可协议:Creative Commons Attribution 4.0 International (CC BY 4.0)


结语:当大语言模型“阅读”地球

Groundsource的发布,不仅仅是一个新数据集的诞生。它代表了一种范式上的探索:在传统传感器网络和卫星遥感之外,我们能否将人类社会中“天然存在”的信息流(如新闻报道)转化为系统性的科学观测?

大语言模型在其中扮演了关键角色——它不再是单纯的聊天工具,而是具备了从海量文本中提取结构化知识的能力,成为“阅读”地球、理解灾害的智能助手。

当然,这还只是一个开始。如何将这种基于新闻的记录,与传统水文气象数据、遥感数据进行深度融合?如何利用这些数据构建更准确的洪水风险模型?这些开放的问题,等待着更多研究者的探索。


本文内容基于预印本《Groundsource: A Global Dataset of Flood Events from News》整理,数据及方法尚未经正式同行评议,请读者在使用时注意。

http://www.jsqmd.com/news/521177/

相关文章:

  • Qwen2-VL-2B-Instruct创意编程:用Processing生成艺术图像并由AI赋予诗意解读
  • Word特殊符号查找终极指南:论文党必备的符号分类与输入技巧
  • 乙巳马年·皇城大门春联生成终端W与传统规则引擎生成效果对比分析
  • Bidili Generator惊艳效果:BF16精度下SDXL生成的8K人像皮肤纹理细节实拍
  • StructBERT文本相似度模型应用场景:在线教育错题本智能归类
  • STM32蓝牙双机通信实战:HC-05主从配置避坑指南(附完整AT指令集)
  • 手把手教你搞定RK3588开发板ADB连接失败(从硬件到Android系统全排查)
  • 嵌入式串口传输中结构体与浮点数的字节级转换原理
  • 2026年评价高的动态接触角测量仪厂家推荐:高温接触角测量仪/在线式接触角测量仪/全自动接触角测量仪厂家选择参考建议 - 行业平台推荐
  • Chrome QRCode:本地化二维码工具的高效应用方案
  • 避坑指南:Ubuntu20.04安装FSL6.0.4时为什么不要用清华镜像?附正确安装方法
  • RDM接收端实战:基于串口DMA与双缓冲区的数据解包与状态机设计
  • Julia新手必看:从安装到第一个可视化图表的全流程指南(附常见问题解决)
  • Windows自动化神器:IUIAutomation在微信消息监控中的应用
  • Windows 7还在用?手把手教你检测和修复永恒之蓝漏洞(附MS17-010补丁下载)
  • 破局智能手表表盘同质化困局:Mi-Create让零基础用户实现95%设备覆盖的个性化创作
  • ROS机械臂抓取避坑指南:5个让动态跟踪失败的常见问题及解决方案
  • 腾讯混元OCR作品分享:多语种混合文档识别效果惊艳
  • 告别Keil!用VSCode+OpenOCD+J-Link调试STM32,保姆级配置流程(附配置文件)
  • Qwen3-4B-Instruct-2507实战体验:手把手教你搭建流式对话AI
  • WizFi310模块底层开发指南:UART AT指令与工业级Wi-Fi通信实践
  • FairMOT vs DeepSORT:实测对比两种跟踪算法在拥挤场景下的表现差异
  • Vite项目踩坑记:解决‘can‘t be bundled without type=“module“‘警告的3种实用方法
  • 嵌入式C语言安全合规审计全栈方案(ISO 26262/DO-178C双认证实操版)
  • Youtu-VL-4B-Instruct保姆级教程:Windows WSL2环境下源码编译+WebUI启动
  • CTFHUB技能树之HTTP协议——基础认证实战:从字典到Base64的自动化爆破
  • 因果推断实战:如何用Python处理混杂变量(附代码示例)
  • Pixel Dimension Fissioner部署教程:本地NVIDIA GPU环境零配置启动
  • Vue3结合exceljs实现动态Excel报表生成与数据校验
  • 多模态智能解读:LAVIS框架下的讽刺检测技术解析