当前位置：首页 > news >正文

想入门脑机接口？这5个免费EEG数据集帮你从理论到实战（含Python处理示例）

news 2026/7/17 15:56:49

想入门脑机接口？这5个免费EEG数据集帮你从理论到实战（含Python处理示例）

当你第一次听说脑机接口（BCI）时，脑海中浮现的可能是科幻电影中那些炫酷的场景——用意念控制机械臂、通过思维与计算机交互。但现实中的脑机接口研究，往往始于一个更基础的工具：脑电图（EEG）数据。作为记录大脑电活动的黄金标准，EEG数据就像一扇窗，让我们得以窥见大脑的奥秘。

对于初学者而言，获取高质量且易于使用的EEG数据集是迈入这一领域的关键第一步。本文将为你精选5个完全免费的EEG数据集，覆盖视觉识别、精神健康分析、运动想象BCI、事件相关电位和睡眠分析等多个研究方向。更重要的是，我会手把手教你如何用Python（特别是MNE-Python库）加载和处理这些数据，让你从理论直接跳到实战。

1. 为什么选择EEG作为脑机接口的起点？

在众多脑成像技术中，EEG以其高时间分辨率、相对低廉的成本和便携性，成为脑机接口研究最常用的工具。它能够捕捉到毫秒级的大脑活动变化，这对于需要实时交互的BCI应用至关重要。

EEG数据通常由多个电极通道组成，每个通道记录的是头皮某一点的电势变化。这些微弱的电信号（通常在微伏级别）反映了大脑皮层中大量神经元同步活动的总和。通过分析这些信号的时域特征（如振幅、潜伏期）和频域特征（如不同频段的功率），我们可以解码大脑的状态和意图。

初学者常遇到的三个挑战：

数据获取难：商业EEG设备价格昂贵，且受试者招募成本高
预处理复杂：EEG数据包含大量噪声（如眼动、肌电等）
分析门槛高：需要掌握信号处理和机器学习等多领域知识

这正是公开EEG数据集的价值所在——它们让你无需自己采集数据，就能直接进入分析和建模阶段。下面这5个数据集，每一个都经过精心挑选，特别适合初学者上手。

2. 视觉对象识别：大型EEG数据集

2.1 数据集概览

这个名为"A large and rich EEG dataset for modeling human visual object recognition"的数据集，记录了10名参与者在观看16,740张自然场景物体图像时的脑电反应。每个参与者完成了82,160次试验，数据量之大在视觉神经科学领域实属罕见。

数据集特别适合研究：

物体识别的神经机制
视觉信息的神经表征
脑电信号与深度学习模型的关系

2.2 数据获取与结构

你可以从Open Science Framework免费下载该数据集：

wget https://osf.io/3jk45/download

下载后，你会发现数据已经按照训练集和测试集组织好，每个参与者的数据包含：

生物训练数据矩阵：16,540训练条件 × 4重复 × 17通道 × 100时间点
生物测试数据矩阵：200测试条件 × 80重复 × 17通道 × 100时间点

2.3 Python处理示例

使用MNE-Python加载数据：

import mne import numpy as np # 假设你已下载并解压了数据 raw_data = np.load('participant01_biotrain.npy') # 形状为(16540, 4, 17, 100) # 创建MNE的Info对象 ch_names = ['O1', 'Oz', 'O2', 'PO7', 'PO3', 'POz', 'PO4', 'PO8', 'P7', 'P5', 'P3', 'P1', 'Pz', 'P2', 'P4', 'P6', 'P8'] sfreq = 100 # 采样率100Hz info = mne.create_info(ch_names=ch_names, sfreq=sfreq, ch_types='eeg') # 转换为MNE的Epochs对象 events = np.array([[i, 0, 1] for i in range(raw_data.shape[0])]) # 创建虚拟事件 epochs = mne.EpochsArray(raw_data.mean(axis=1), info, events) # 平均重复试验 # 可视化第一个试验 epochs[0].plot()

3. 精神健康分析：多模态开放数据集

3.1 数据集特点

"Multi-modal Open Dataset for Mental-disorder Analysis" (MODMA) 是一个独特的数据集，它同时包含EEG和语音数据，专为精神障碍（特别是抑郁症）研究设计。数据集包含：

128通道EEG：53名参与者（24名抑郁症患者）
3通道可穿戴EEG：55名参与者（26名抑郁症患者）
语音录音：52名参与者（23名抑郁症患者）

3.2 实验范式

数据集记录了两种状态下的EEG：

静息状态：参与者闭眼放松
Dot探针任务：注意力偏向测试，使用情绪面孔刺激

3.3 Python处理示例

import mne # 加载.edf格式的EEG数据 raw = mne.io.read_raw_edf('depression_resting_01.edf', preload=True) # 基本预处理 raw.filter(1, 40) # 带通滤波1-40Hz raw.set_eeg_reference('average') # 平均参考 # 绘制功率谱密度 raw.plot_psd(fmax=40) # 提取静息状态片段 events = mne.make_fixed_length_events(raw, duration=2) # 每2秒一个事件 epochs = mne.Epochs(raw, events, tmin=0, tmax=2, baseline=None) # 计算alpha波(8-13Hz)功率 alpha_power = epochs.compute_psd(fmin=8, fmax=13).get_data().mean(axis=2) print(f"平均alpha功率：{alpha_power.mean():.2f} μV²/Hz")

4. 运动想象BCI：中风患者数据集

4.1 数据集价值

这个名为"An EEG motor imagery dataset for brain computer interface in acute stroke patients"的数据集特别珍贵，因为：

包含50名急性中风患者的数据
专注于左手/右手运动想象任务
使用便携式盐水电极系统采集，更接近实际BCI应用场景

4.2 数据结构

每个参与者的数据包含：

原始EEG记录（29通道，500Hz采样率）
预处理后的数据（0.5-40Hz带通滤波）
患者特征（如偏瘫侧、卒中后天数）

4.3 Python处理示例

import numpy as np from sklearn.preprocessing import StandardScaler from sklearn.model_selection import train_test_split # 加载预处理后的数据 left_data = np.load('patient01_left_mi.npy') # 左手运动想象，形状(试验数, 29, 时间点) right_data = np.load('patient01_right_mi.npy') # 右手运动想象 # 创建标签 left_labels = np.zeros(left_data.shape[0]) right_labels = np.ones(right_data.shape[0]) # 合并数据 X = np.concatenate([left_data, right_data]) y = np.concatenate([left_labels, right_labels]) # 特征提取：每个通道的平均功率 def extract_features(data): power = np.mean(data**2, axis=2) # 时域功率 return power.reshape(data.shape[0], -1) # 展平 X_feat = extract_features(X) # 数据标准化和划分 scaler = StandardScaler() X_scaled = scaler.fit_transform(X_feat) X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2) print(f"训练集样本：{X_train.shape[0]}，测试集样本：{X_test.shape[0]}")

5. 事件相关电位：ERP CORE数据集

5.1 标准化ERP范式

ERP CORE提供了6种经过优化的标准ERP范式：

错配负波(MMN)
N170（面孔处理）
N2pc（视觉注意）
N400（语义处理）
P3b（工作记忆）
ERN（错误处理）

5.2 数据特点

40名健康参与者
每个范式包含刺激脚本和处理脚本
数据已经过基本预处理

5.3 Python处理示例

import mne from mne.viz import plot_compare_evokeds # 加载预处理后的数据 epochs = mne.read_epochs('ern-epo.fif') # 按反应类型分组（正确vs错误） correct = epochs['response == 1'] incorrect = epochs['response == 0'] # 计算ERP evoked_correct = correct.average() evoked_incorrect = incorrect.average() # 比较两种条件的ERP plot_compare_evokeds({'正确': evoked_correct, '错误': evoked_incorrect}, picks='Cz', title='ERN效应')

6. 睡眠分析：CAP睡眠数据库

6.1 数据集亮点

CAP（周期性交替模式）睡眠数据库包含：

108份多导睡眠图记录
16名健康对照和92名各种睡眠障碍患者
包含EEG、EOG、EMG、呼吸和ECG等多模态信号

6.2 应用场景

睡眠阶段自动分类
CAP模式检测
睡眠障碍研究

6.3 Python处理示例

import mne import numpy as np # 加载EDF文件 raw = mne.io.read_raw_edf('cap01.edf', preload=True) # 选择EEG通道 eeg_chs = [ch for ch in raw.ch_names if 'EEG' in ch] raw.pick_channels(eeg_chs) # 基本预处理 raw.filter(0.5, 30) # 适合睡眠分析的频带 # 绘制30秒片段 raw.plot(duration=30, scalings=dict(eeg=100e-6)) # 100μV刻度 # 加载睡眠阶段注释 annot = mne.read_annotations('cap01_annotations.txt') raw.set_annotations(annot) # 查看不同睡眠阶段的功率谱 stage_N2 = raw.copy().crop_by_annotations(description='N2')[0] stage_N2.plot_psd(fmax=30, area_mode='range')

7. 从数据到应用：EEG分析全流程

现在你已经了解了这些数据集，让我们看看一个完整的EEG分析流程是怎样的。以运动想象数据集为例：

7.1 预处理流程

滤波：去除高频噪声和低频漂移
```
raw.filter(0.5, 40, fir_design='firwin')
```

坏道检测与插值

raw.info['bads'] = ['Fp1'] # 标记坏道 raw.interpolate_bads()

伪迹去除（如眼电、心电）

ica = mne.preprocessing.ICA(n_components=15) ica.fit(raw) ica.exclude = [0, 1] # 根据诊断图选择要排除的成分 ica.apply(raw)

7.2 特征提取

常用EEG特征包括：

时域：均值、方差、峰度
频域：各频段功率（δ,θ,α,β,γ）
时频分析：小波变换

from mne.time_frequency import tfr_multitaper # 计算时频表征 freqs = np.arange(8, 30, 2) # 8-30Hz，步长2 power = tfr_multitaper(epochs, freqs=freqs, n_cycles=freqs/2, return_itc=False) power.plot(['C3', 'C4'], baseline=(-0.5, 0), mode='logratio')

7.3 机器学习建模

from sklearn.pipeline import make_pipeline from sklearn.linear_model import LogisticRegression from sklearn.metrics import classification_report # 创建管道 pipe = make_pipeline( StandardScaler(), LogisticRegression() ) # 训练和评估 pipe.fit(X_train, y_train) y_pred = pipe.predict(X_test) print(classification_report(y_test, y_pred))

8. 进阶技巧与资源

当你熟悉了基础分析后，可以尝试以下进阶方向：

8.1 深度学习应用

import tensorflow as tf from tensorflow.keras import layers model = tf.keras.Sequential([ layers.Input(shape=(29, 250)), # 29通道，250时间点 layers.Conv1D(32, 10, activation='relu'), layers.MaxPooling1D(3), layers.Conv1D(64, 10, activation='relu'), layers.GlobalAveragePooling1D(), layers.Dense(1, activation='sigmoid') ]) model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) model.fit(X_train, y_train, epochs=10, validation_split=0.2)