语言脑机接口解码流程对比【脑机接口恢复语言2】
上期视频大家过了一遍语言脑机接口的发展历史,这期就来对比一下各篇文章的解码流程。
切分单词或汉字
首先,我们让患者看着屏幕,要求他/她朗读、默读或想象屏幕上的汉字,同时记录侵入式的脑信号,这篇论文里用的是 ECoG 电极。
这时我们记录到的只是原始数据,原始数据中包含很多噪声和毛刺,这些是无用信息。
(懿轩注:其实若计算资源丰富,也可以试试能否从这些毛刺中挖掘出一些有用信息)
第1步,我们要经过希尔伯特变换提取出原始曲线的包络,从而去除这些噪声和毛刺。如图所示,灰色的曲线是原始数据,彩色的7条线是包络,对应的是7个频段,如果忘了频段,可以回我上期的视频看一下。
第1步后,我们得到的数据是连续的一段,比如说这是患者在说"我很欣赏烟台这个城市"时的脑信号。
第2步,我们要检测出患者说每个汉字的时刻,把这一整句切成多个汉字,比如图中的这条红线就是句子里的"我"。
第3步,我们训练一个深度学习解码器,把刚才"我"的脑信号解码成"我"的音节,也就是 wo。
第4步,我们接入一个语言模型,得到汉字"我"。
刚才我讲的4步是目前所有汉语语言脑机文章用的方法。只不过有的文章会在 ERP2Sylb 这步中加上解码声母、韵母、音调的中间步骤。
这方面的工作有上海科技大学的李远宁、西湖大学的 Mohamad Sawan、浙江大学的杨洋、北京师范大学的柳昀哲、深圳河套学院的蔡思祺,已经至少有5篇文章。
汉语的这些解法是从英语研究学过来的。英语在2020年、2021年的文章也是一样的套路:第1步做预处理,第2步切成单词,第3步解单词,第4步把单词合成句子。但是2023年及之后,英语还有一种做法——用【CTC Loss】——可以跳过切单词、解单词这两步。
不切分单词或汉字
CTC 全称是Connectionist Temporal Classification,是2006年在语音识别中被提出的一种方法。当时统计机器学习方法,例如隐马尔可夫链,是语音识别领域的王者,发明者Alex Graves把 Connectionist 直接加入名字中,这样大家一眼就能看出来这方法在用循环神经网络。CTC的具体实现是——语音信号经分帧(帧长 25ms,帧移 10ms,这俩数是古圣先贤帮你调好的)后输入循环神经网络,通过引入 blank 符号和动态规划算法,绕过帧与标签的对齐,从而解码出音素序列,再经过语言模型得到英语句子。把第一步的语音信号换成神经信号,就可以拿到语言脑机接口领域用了。
(懿轩注:Alex Graves是Jurgen的博士生,Hinton的博后,LSTM就是他复兴的。看来那时候Jurgen和Hinton关系还不错)
今年3月末,Neuralink发布了想象语音的视频。它的解码就是典型的【CTC Loss】,因为它两个标签之间的空白可长可短。
(懿轩注:我可以99%确定它用的就是【CTC Loss】,但是因为它没有发论文或者技术报告,所以还有一些不确定性。)
刚才我讲的两条英文解码路径,已经概括了我上一篇视频讲的所有关于长期植入的文章。
未来,汉语语言脑机选择切分还是不切分?
中文脑机里,【CTC Loss】未必就一定强于【切单字、解单字】,原因如下:
- 中文1-3个音素就组成一个汉字,英语四五个音素才组成一个单词。因此英语单词可以对英语音素进行一轮纠错,而汉语单字不能。
- 中文常用音节才四百个,英语单词却有一万个。因此英语用切单词是注定做不到常用语的,而汉语可以。
当然,中文上,【CTC Loss】相比于【切单字、解单字】也有好处,最大的好处是——未来真正给中风或渐冻症患者做的时候,患者说每个汉字的发音时长肯定会有差别。若还采用【切单字、解单字】,虽然我们可以通过线性变换进行拉伸或者压缩,但肯定会降低解码准确率。
综上,两条路径都是值得尝试的。
【CTC Loss】不一定非要以音素作为标签。实际上,在CTC统治语音识别的十年里:
- 英文语音识别SOTA中,CTC的标签经历了从音素到字符再到BPE的变化。
- 中文语音识别SOTA中,一直在使用汉字作为标签。
那么中文语言脑机能用汉字作为【CTC Loss】的标签吗?——一个难点是数据太少。语音识别领域里数据足够多,动辄可以产生几百万汉字的数据。但是语言脑机,由于患者很疲惫,每周只能采集大约两万字的数据。并且,长期植入时,信号每周需要重新校准。因此,恐怕难以产生类似语音识别那样的数据量。两万个汉字若均摊到3500常用字上,每个汉字才出现5-6次,解码难度可想而知。
语言模型纠错
无论切分还是不切分,都需要用语言模型纠错。
很容易想到,我们可以用多个从小到大的大语言模型进行多轮纠错,从而平衡解码准确率和解码速度。
上图是已经发表文章中采用的大语言模型。从模型大小上,你大概就能猜出来作者们是如何使用的了。
未来汉语语言脑机有可能略过大语言模型纠错吗?——在直接用汉字作为CTC标签前,不太可能。
参考文献
Card, Nicholas S., Maitreyee Wairagkar, Carrina Iacobacci, et al. ‘An Accurate and Rapidly Calibrating Speech Neuroprosthesis’.New England Journal of Medicine391, no. 7 (2024): 609–18. https://doi.org/10.1056/NEJMoa2314132.
Feghhi, Ebrahim, Junlin Hu, Nima Hadidi, and Jonathan C. Kao. ‘LightBeam: An Accurate and Memory-Efficient CTC Decoder for Speech Neuroprostheses’. arXiv:2603.14002. Preprint, arXiv, 14 March 2026. https://doi.org/10.48550/arXiv.2603.14002.
Feng, Chen, Lu Cao, Di Wu, et al. ‘Acoustic Inspired Brain-to-Sentence Decoder for Logosyllabic Language’.Cyborg and Bionic Systems6 (January 2025): 257. https://doi.org/10.34133/cbsystems.0257.
Liu, Yan, Zehao Zhao, Minpeng Xu, et al. ‘Decoding and Synthesizing Tonal Language Speech from Brain Activity’.Science Advances9, no. 23 (2023): eadh0478. https://doi.org/10.1126/sciadv.adh0478.
Makin, Joseph G., David A. Moses, and Edward F. Chang. ‘Machine Translation of Cortical Activity to Text with an Encoder–Decoder Framework’.Nature Neuroscience23, no. 4 (2020): 575–82. https://doi.org/10.1038/s41593-020-0608-8.
Metzger, Sean L., Kaylo T. Littlejohn, Alexander B. Silva, et al. ‘A High-Performance Neuroprosthesis for Speech Decoding and Avatar Control’.Nature620, no. 7976 (2023): 1037–46. https://doi.org/10.1038/s41586-023-06443-4.
Moses, David A., Sean L. Metzger, Jessie R. Liu, et al. ‘Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria’.New England Journal of Medicine385, no. 3 (2021): 217–27. https://doi.org/10.1056/NEJMoa2027540.
Real-Time Decoding of Full Spectrum Chinese Using Brain-Computer Interface. 2025.
Silva, Alexander B., Jessie R. Liu, Sean L. Metzger, et al. ‘A Bilingual Speech Neuroprosthesis Driven by Cortical Articulatory Representations Shared between Languages’.Nature Biomedical Engineering8, no. 8 (2024): 977–91. https://doi.org/10.1038/s41551-024-01207-5.
Willett, Francis R., Erin M. Kunz, Chaofei Fan, et al. ‘A High-Performance Speech Neuroprosthesis’.Nature620, no. 7976 (2023): 1031–36. https://doi.org/10.1038/s41586-023-06377-x.
Yuan, Zhizhang, Yang Yang, Gaorui Zhang, et al. ‘Towards Unified Brain-to-Text Decoding across Speech Production and Perception’. arXiv:2603.12628. Preprint, arXiv, 13 March 2026. https://doi.org/10.48550/arXiv.2603.12628.
Zhang, Daohan, Zhenjie Wang, Youkun Qian, et al. ‘A Brain-to-Text Framework for Decoding Natural Tonal Sentences’.Cell Reports43, no. 11 (2024): 114924. https://doi.org/10.1016/j.celrep.2024.114924.
Zhang, Yizi, Linyang He, Chaofei Fan, et al. ‘Decoding Inner Speech with an End-to-End Brain-to-Text Neural Interface’. arXiv:2511.21740. Preprint, arXiv, 5 December 2025. https://doi.org/10.48550/arXiv.2511.21740.
