语言脑机接口中的开源数据集【脑机接口恢复语言3】
哈喽,我是懿轩。今天和大家聊聊语言脑机接口领域的开源数据集。
开源这词大家肯定都听烂了,但其实开源是有好几种程度的。
我们常说GPT是闭源的, deepseek是开源的,指的是前者没有开放权重,而后者开放。
但开源的另一个意思是要公开训练方法,
有的开放权重的模型,比如GPT-OSS,就没有公开训练方法
除了公开权重、方法之外,还要公开训练数据和训练代码,这才是完全的开源。
有一个模型叫 OLMo,它公开了训练数据和训练代码。
(懿轩注:OLMo来自美国艾伦人工智能研究所,最新一代 OLMo-3.1-32B 于2025年12月发布。可惜的是,今年三月,OLMo的核心团队几乎都被微软撬走,这个项目恐怕再也没有下一代了。)
现在来看看咱们语言脑机接口,这是我第1期视频放的7篇文章。他们的开源情况如何呢?
简单地说 UCSF 发的文章,只公开方法。BrainGate 发的文章,数据、代码、权重、方法全都公开。
(懿轩注:这里的 UCSF 指的是 UCSF 的 Edward Chang 实验室。这里的 BrainGate 指的是 Stanford 的 Willett 和 UC Davis 的 Stavisky 实验室)
UCSF 的文章会公开绘图数据和绘图代码,它只能让你把文章里的图画出来。
开源除了可以复现之外,还有一个好处是可以打榜。
BrainGate把他们23年和24年的文章做成了两个比赛, Brain to Text 24 和 Brain to Text 25,分别于2024年和2025年举办。
(懿轩注:不知他们今年是否会发布 Brain to Text 26)
这两个比赛里各有10多支队伍超越了原作。
打榜是一件非常重要的事情——2012年深度学习第3次崛起就是依靠 ImageNet 可以让大家公平地竞争;2020年 AlphaFold 2 破圈也是因为蛋白质折叠领域每两年就有比赛。
(懿轩注:很多领域没有这样公平竞争的比赛,给学者们留了偷换概念和暗箱操作的空间)
开源和闭源哪个更好?——从全人类的利益看,开源各个方面都优于闭源。
比如说,我想比较 LSTM,GRU,Transformer 哪个在语言脑机领域最好用,光靠一个人的力量调参是不够的——唯一的办法就是把数据集开源,让擅长各个模型的人分别调参。
我很期待的是,每个学者都把自己的数据拿出来。反正那些数据不拿出来也就是放在服务器的硬盘里面吃灰,还不如贡献出来让大家都玩玩。
参考文献:
