加州地震事件数据集CEED:事件驱动格式赋能地震学AI研究
1. 加州地震事件数据集(CEED):一个为机器学习与云计算时代打造的地震学研究基石
如果你正在从事地震监测、震相自动拾取或者地震危险性分析相关的研究,尤其是想用深度学习模型来处理波形数据,那你大概率遇到过数据获取和整理的难题。不同机构的数据格式各异,时间跨度不一,标注质量参差不齐,想要找到一个统一、高质量、且便于机器学习模型训练的数据集,往往需要耗费大量精力进行数据清洗和格式转换。我自己在几年前尝试训练第一个震相拾取模型时,就深陷于从不同数据中心下载、解压、对齐和标注数据的繁琐流程中,整个过程耗时耗力,且极易出错。
现在,这个局面有了一个强有力的解决方案:加州地震事件数据集(California Earthquake Event Dataset, CEED)。这个数据集不是简单地将波形数据打包,而是一个为机器学习和云计算环境从头设计的、事件驱动的综合性资源。它由加州大学伯克利分校和加州理工学院的研究团队联合整理,核心目标就是为地震学领域的数据驱动研究,特别是深度学习应用,提供一个“开箱即用”的高质量基准数据集。简单来说,CEED试图解决研究者们的几个核心痛点:数据分散、格式不一、标注缺失以及海量数据难以处理。它把北加州地震数据中心(NCEDC)和南加州地震数据中心(SCEDC)从2000年到2024年(数据持续更新)的观测数据进行了标准化整合,提供了超过410万个带标签的三分量波形样本,涵盖了震相到时、初动极性、峰值地面运动(PGA/PGV)以及震源基本信息。无论你是想训练一个新的震相拾取模型(如PhaseNet的变体),还是开发一个多台站联合定位算法,亦或是进行地震动预测研究,CEED都提供了一个坚实、统一的起点。
2. 数据集核心设计思路:为什么是“事件驱动”而非“样本驱动”?
在深入数据细节之前,理解CEED的设计哲学至关重要。这直接决定了它为何比以往的许多数据集更适合当前的研究趋势。
2.1 传统“样本驱动”格式的局限性
在CEED出现之前,大多数为深度学习准备的地震数据集,如著名的STEAD、INSTANCE等,都采用“样本驱动”的格式。这意味着数据集中的每个条目是一个独立的、固定时间长度的波形片段(例如,30秒或3秒的窗口),以及与之对应的标签(如P波、S波到时)。这种格式对于训练经典的、基于单台站波形的模型(如PhaseNet, EQTransformer)非常方便。模型输入是一个波形片段,输出是该片段内的震相概率或到时。
然而,这种格式存在天然缺陷。首先,它破坏了地震事件的整体性。一次地震会被记录在数十甚至数百个台站上,每个台站的记录都是该事件在不同空间位置的反应。“样本驱动”格式将这些记录完全割裂,模型在训练时无法“看到”事件的全貌。其次,这对于发展更先进的多台站或网络化深度学习模型构成了障碍。这类模型(如PhaseNO, EQNet)能够同时处理多个台站的波形,利用台站间的空间关系来联合约束震相拾取和事件检测,其性能通常优于单台站模型。要训练这样的模型,研究人员需要自己费力地将分散的样本重新按照事件ID组织起来,这个过程既容易出错,又效率低下。
2.2 CEED的“事件驱动”分层格式
CEED的核心创新在于其“事件驱动”的分层数据组织方式。它直接以地震事件为基本单元来构建数据集。具体来说,数据集按年份组织(例如CEED_2023.hdf5),在每个HDF5文件内部,数据按照以下层级结构存储:
- 第一层:事件组(Event Group)。以USGS的ComCat事件ID(如
ci38457511)作为组名。这个组里存储了该事件的元数据属性,包括发震时间、经纬度、深度、震级、震源机制解(如果有的话)。 - 第二层:台站数据集(Station Dataset)。在每个事件组下,以
网络代码.台站代码.位置代码.通道代码(如CI.CCC..HHZ)的形式创建数据集。这个数据集存储了该台站记录到的该事件的三分量波形数据(通常是P波到前几秒到S波到后几秒的窗口)。同时,在该数据集的属性中,存储了这个台站-事件对的专属标签信息,包括:P波和S波的绝对到时(UTC时间)、相对于事件开始时间的采样点索引、震相类型、初动极性(上跳U、下跳D或未知N)、峰值地面速度(PGV)、峰值地面加速度(PGA)、震中距、反方位角等。
这种设计带来的巨大优势:
- 天然支持多台站模型训练:要训练一个多台站模型,你只需要读取一个事件ID下的所有台站波形数据集,它们天然就是对齐的(基于同一事件时间)。模型可以同时看到所有台站的记录,学习台站间的空间相关性。
- 便于与标准目录交叉引用:事件ID与USGS的ComCat系统完全对应,研究者可以轻松地将CEED中的数据与公开地震目录中的其他信息(如矩张量解、断层平面解)进行关联和验证。
- 高效的数据管理与更新:按年份分文件存储,使得增补新一年的数据变得非常简单,只需生成一个新的HDF5文件即可,无需改动原有数据结构。这也非常利于在云计算环境中进行分布式读取和处理。
- 丰富的上下文信息:每个波形样本都携带了完整的“上下文”——它属于哪个事件、在哪个台站记录、台站相对于事件的位置几何关系。这些信息对于许多高级任务(如震级估算、震源机制约束)是至关重要的。
注意:CEED团队在构建数据集时,刻意保留了波形的“原始复杂性”。他们只进行了最小化的预处理,包括去均值、重采样到100 Hz、旋转到ENZ方向、转换为速度或加速度物理单位。他们没有去除仪器响应,而是将仪器响应文件一并提供。这样做的理由是,去除仪器响应在某些应用中可能是必要的,但在另一些应用(如深度学习特征学习)中可能并非必须,甚至可能引入不必要的步骤。把选择权留给用户,并保留原始响应文件,是更灵活的做法。
3. 数据集内容深度解析:你得到的不只是波形
CEED的价值不仅在于其新颖的格式,更在于其丰富、高质量的内容。让我们拆开看看这个数据宝库里到底有什么。
3.1 数据规模与时空覆盖
截至2023年,CEED整合了:
- 北加州(NCEDC):约32.5万个事件,110万个三分量波形样本(均包含人工复核的P波和S波到时)。
- 南加州(SCEDC):约32.8万个事件,300万个三分量波形样本。
总计超过410万个带标签的波形样本,这使其成为目前最大的面向机器学习的地震数据集之一。数据时间跨度从2000年至2024年,覆盖了整个加州的密集台网(图1)。这些事件不仅包括圣安德烈亚斯断层系统的构造地震,还涵盖了地热田诱发地震(如盖瑟斯、科索、索尔顿海)、火山地震(如长谷、拉森峰、沙斯塔山)以及门多西诺三联点附近的近海事件。震级范围从M1到M7,几乎涵盖了所有有仪器记录的地震大小(图2a)。这种在时间、空间、震级和地震类型上的高度多样性,对于训练具有强泛化能力的深度学习模型至关重要。
3.2 标签体系:从震相到地面运动
CEED提供了多层次、丰富的标签信息,远超简单的“P/S波到时”:
- 震相到时与类型:每个波形都标注了P波和S波的精确到时(UTC时间),这是数据集最核心的标签。图3展示了P波和S波拾取数量的时间分布,可以看到数据量随着时间推移和台网升级而显著增长。
- 初动极性(First-Motion Polarity):这是推断震源机制(断层的滑动方向)的关键信息。CEED包含了超过240万个明确的(上跳“U”或下跳“D”)极性拾取(图4)。这对于训练像PhaseNet+这样的多任务模型(同时进行震相拾取和极性判断)至关重要。
- 地面运动强度测量:数据集提供了每个波形上的峰值地面速度(PGV)和峰值地面加速度(PGA)测量值(图5)。这些是地震工程和危险性分析的核心参数。例如,QuakeFormer模型就利用这些标签来开发加州地区的非遍历性地震动预测模型。
- 事件与台站元数据:每个事件都有发震时间、位置(经纬度、深度)、震级。每个台站-事件对都有震中距、反方位角、信噪比(SNR)、频率指数等(图6)。这些信息为模型提供了宝贵的物理和几何上下文。
3.3 数据分布的挑战与应对策略
仔细分析图2至图8,你会发现CEED中的数据分布并非均匀,这反映了真实世界地震活动的复杂性,但也给机器学习带来了挑战:
- 震级分布不平衡:小震(M1-3)的数量远远多于中强震(图2a)。如果直接使用原始数据训练,模型可能会偏向于检测小震,而对中强震的泛化能力不足。
- 时空分布不均:地震活动在时间和空间上呈丛集性(图2b, 图1b)。某些年份(如2019年Ridgecrest地震序列期间)数据量激增。
- 台站与仪器类型多样:数据集包含了多种地震计类型(图8),如宽带(BH, HH)、强震仪(HN, EH)等,它们的频率响应和噪声特性不同。
实操心得:如何处理不平衡数据?在实际训练模型时,直接使用原始数据集可能会导致模型偏见。我常用的策略包括:
- 分层采样(Stratified Sampling):在划分训练集、验证集和测试集时,不仅随机划分,还要确保每个集合在震级、深度、震中距等关键维度上的分布与整体数据集相似。
- 数据增强(Data Augmentation):对数量较少的类别(如中强震的样本)进行增强。例如,对波形添加不同强度的随机噪声、进行轻微的时间拉伸、或应用带通滤波来模拟不同仪器响应。CEED论文中也提到了使用过采样或欠采样技术来改善模型泛化能力。
- 加权损失函数(Weighted Loss Function):在训练时,为不同类别的样本(如不同震级区间)分配不同的损失权重,让模型更关注难以分类的样本。
4. 从数据到应用:机器学习与云计算工作流实战
有了高质量的数据集,下一步就是如何利用它。CEED的设计充分考虑了现代研究的工作流,主要体现在两个方面:便捷的机器学习接口和云原生的数据访问。
4.1 机器学习模型训练:以PhaseNet为例
CEED托管在Hugging Face平台(https://huggingface.co/datasets/AI4EPS/CEED),这极大地简化了数据获取流程。你不再需要手动下载数百GB的压缩包。以下是一个使用datasets库加载CEED数据并准备训练模型的简化示例:
from datasets import load_dataset import numpy as np # 加载数据集(这里以测试集为例,训练集很大) dataset = load_dataset("AI4EPS/CEED", name="station_test", split="test") # 查看一条数据样例 for example in dataset.take(1): print(f"波形数据形状: {np.array(example['data']).shape}") # 通常是 (3, 8192),即3个分量,8192个采样点 print(f"事件时间: {example['event_time']}") print(f"震相到时: {example['phase_time']}") print(f"震相类型: {example['phase_type']}") # 如 ['P', 'P', 'S'] print(f"震中距: {example.get('epicentral_distance', 'N/A')}") # ... 其他元数据对于训练,你可以轻松地将数据集转换为PyTorch或TensorFlow所需的格式。CEED的事件驱动格式使得构建多台站输入变得直观。你需要做的是,对于一个给定的事件,批量读取其对应的所有台站波形,并将其堆叠成一个[num_stations, 3, num_samples]的张量,作为模型的输入。
4.2 云计算环境下的海量数据挖掘
深度学习地震学的一个前沿应用是从连续波形档案中挖掘被传统算法遗漏的隐藏小震。这面临两大挑战:TB级数据的下载与存储,以及处理这些数据所需的巨大计算资源。CEED及其对应的连续波形云存储完美地解决了这些问题。
北加州(NCEDC)和南加州(SCEDC)的连续波形数据已公开托管在亚马逊AWS云上,总数据量超过300 TB(图11)。这意味着你可以在云上直接处理数据,而无需下载到本地。
两种主流的云数据访问方式:
直接挂载AWS存储桶(S3 Bucket):使用
s3fs等工具,可以将云端的存储桶像本地磁盘一样挂载到你的云服务器(EC2实例)或本地机器上。# 示例:挂载SCEDC的公共存储桶 mkdir -p ~/cloud/scedc-pds s3fs scedc-pds ~/cloud/scedc-pds -o allow_other -o public_bucket=1 -o compat_dir挂载后,你就可以使用标准的文件路径(如
~/cloud/scedc-pds/continuous_waveforms/...)来读取MiniSEED文件,就像读取本地文件一样。使用
fsspec统一文件接口:这是一个更Pythonic的方式,特别适合在代码中直接处理。import fsspec import obspy # 直接通过S3 URL读取波形文件 file_path = "s3://scedc-pds/continuous_waveforms/2019/2019_187/CICCC__HHZ___2019187.ms" with fsspec.open(file_path, s3={"anon": True}) as f: # anon=True表示匿名访问公共桶 stream = obspy.read(f) stream.plot()
云计算架构选择:
- 虚拟机和容器:提供灵活的计算能力,适合交互式开发和中小规模处理。
- 无服务器计算(如AWS Lambda):适合事件驱动的、短时任务,例如实时触发的地震数据处理流水线。
- 批量处理服务(如AWS Batch):专为大规模并行任务设计,非常适合机器学习训练或对整个数据档案进行扫描式地震检测。
- Kubernetes编排:对于复杂的、多步骤的容器化应用工作流(如QuakeFlow),Kubernetes可以提供高效的资源管理、可扩展性和可移植性。
图12展示了在云中使用多节点并行读取SCEDC和NCEDC数据的速度测试。关键结论是:为了获得最佳性能,计算资源(EC2实例)应该与数据存储桶位于同一个AWS区域(Region)。跨区域访问会引入显著的网络延迟。例如,将计算节点放在us-west-2(美国西部俄勒冈)来读取同样位于us-west-2的SCEDC数据,速度远快于从us-east-2(美国东部俄亥俄)来读取。
5. 潜在问题、挑战与未来方向
尽管CEED是一个强大的资源,但在实际使用中仍需注意一些挑战,并了解其未来的发展潜力。
5.1 数据质量与标签噪声
这是所有基于人工标注数据集的共同挑战。CEED的标签来源于加州地震台网分析师数十年来的手动复核,质量很高,但并非完美。不可避免会存在:
- 错误标签:在复杂噪声背景下或对于非常微���的事件,即使有经验的分析师也可能误判震相。
- 缺失标签:数据集中只包含了编目事件。在波形窗口内,可能存在未被分析师检测到的小震(即“隐藏地震”),这些事件没有标签,在训练中会被视为噪声,可能影响模型学习微弱信号的能力。
- 标注标准不一致:虽然NCEDC和SCEDC都有严格的分析规范,但不同分析师之间或不同时期的标准可能存在细微差异。
应对策略:
- 迭代改进:CEED团队鼓励社区参与数据质量提升。用户可以在Hugging Face仓库的讨论区报告疑似错误标签或提议新增标签。
- 利用模型反哺数据:一个有趣的思路是,用训练好的高灵敏度深度学习模型(如PhaseNet)重新扫描数据集,找出可能与人工标签不一致或未被标注的潜在信号,再交由专家复核,从而形成一个“数据-模型”共同进化的良性循环。
- 数据清洗与筛选:在训练前,可以基于信噪比(SNR)、震中距等元数据对样本进行初步筛选,剔除质量过差的记录。
5.2 模型泛化性的局限
CEED主要基于加州地区的地震和台网数据训练得到的模型,其泛化能力可能受到限制:
- 区域特性:加州的浅源构造地震、地热区诱发地震、火山地震的波形特征,可能与俯冲带地震(如日本、智利)、板内地震(如中国)或冰震等存在差异。
- 台网特性:加州台网密度高、仪器类型多。模型可能学习了特定台网布局或仪器响应带来的隐含特征,应用到台网稀疏或仪器类型迥异的地区时性能可能下降。
解决方案:
- 跨数据集训练:将CEED与意大利的INSTANCE、中国的DiTing、全球的STEAD等数据集结合进行训练,构建更具普适性的“全球模型”。
- 迁移学习与微调:先在大型、多样的数据集(如CEED+STEAD)上预训练一个基础模型,然后在目标区域的小规模数据集上进行微调,可以快速获得在该区域表现良好的模型。
5.3 数据类型的扩展
目前的CEED主要包含传统地震仪(宽带、强震仪、检波器)的波形数据。地震学观测技术正在飞速发展,未来数据集有望整合更多模态的数据:
- 分布式声学传感(DAS):利用光纤作为连续、密集的传感器阵列,能以前所未有的空间分辨率记录地震波场。CEED团队已开始纳入来自SCEDC的公共DAS数据(用于训练PhaseNet-DAS模型),未来整合如SeaFOAM等大型DAS项目的数据,将极大拓展数据集在断层成像和城市地震监测等领域的应用。
- GPS和InSAR数据:提供同震和震后地表形变信息,对于约束震源机制和反演断层滑动分布至关重要。
- 其他地球物理数据:如重力、地磁数据,可用于多物理场联合研究。
向多模态数据集发展,将使CEED不仅是一个“地震波形数据集”,更成为一个“地震科学研究综合数据平台”,支持更复杂、更全面的AI模型开发。
6. 总结与个人实践建议
CEED的出现,标志着地震学数据管理向FAIR原则(可发现、可访问、可互操作、可重用)迈出了坚实的一步。它不仅仅是一个数据集,更是一套为AI时代地震学研究设计的基础设施。从我个人的使用经验来看,有几点建议供大家参考:
首先,从“小”开始,理解数据结构。不要一开始就试图下载整个数据集或运行庞大的训练任务。先用Hugging Face的datasets库加载一小部分测试数据,仔细研究其HDF5层级结构、属性字段和波形数据格式。编写一些简单的脚本来可视化事件-台站关系、查看标签分布。理解数据是有效使用数据的前提。
其次,充分利用云计算,但需优化成本。对于大规模数据挖掘任务,云平台几乎是必选项。在AWS上启动一个与数据同区域的EC2实例(例如us-west-2),利用fsspec直接读取S3数据,可以省去昂贵的下载时间和本地存储成本。但要注意监控计算实例的运行时间和存储I/O,使用Spot实例(竞价实例)来训练模型可以大幅降低成本,不过要处理好可能的中断。对于周期性任务,可以考虑使用AWS Batch或Kubernetes作业来自动化处理流程。
再者,设计模型时考虑数据特性。CEED的事件驱动格式天然鼓励你尝试多台站模型。在构建模型输入管道时,思考如何高效地为一个批次(batch)加载同一个事件的所有台站数据。同时,认真对待数据不平衡问题,在训练循环中实施动态采样或损失加权策略,这对最终模型的鲁棒性影响很大。
最后,积极参与社区。CEED是一个活的项目。如果你发现了数据问题,或者有新的数据(如对其他区域的标注)希望贡献,可以通过其Hugging Face页面进行反馈。开源和协作是科学进步的加速器。
地震学正在经历一场由数据和人工智能驱动的变革。CEED这样的标准化、高质量、云友好的数据集,正是这场变革的关键推手。它降低了研究人员进入AI地震学的门槛,让大家能将更多精力集中在模型创新和科学发现本身,而不是繁琐的数据工程上。无论你是刚入门的研究生,还是经验丰富的地震学家,CEED都值得你花时间去探索和利用。
