当前位置：首页 > news >正文

语言脑机接口解码流程对比【脑机接口恢复语言2】

news 2026/7/15 9:22:11

上期视频大家过了一遍语言脑机接口的发展历史，这期就来对比一下各篇文章的解码流程。

切分单词或汉字

首先，我们让患者看着屏幕，要求他/她朗读、默读或想象屏幕上的汉字，同时记录侵入式的脑信号，这篇论文里用的是 ECoG 电极。

这时我们记录到的只是原始数据，原始数据中包含很多噪声和毛刺，这些是无用信息。

（懿轩注：其实若计算资源丰富，也可以试试能否从这些毛刺中挖掘出一些有用信息）

第1步，我们要经过希尔伯特变换提取出原始曲线的包络，从而去除这些噪声和毛刺。如图所示，灰色的曲线是原始数据，彩色的7条线是包络，对应的是7个频段，如果忘了频段，可以回我上期的视频看一下。

第1步后，我们得到的数据是连续的一段，比如说这是患者在说"我很欣赏烟台这个城市"时的脑信号。

第2步，我们要检测出患者说每个汉字的时刻，把这一整句切成多个汉字，比如图中的这条红线就是句子里的"我"。

第3步，我们训练一个深度学习解码器，把刚才"我"的脑信号解码成"我"的音节，也就是 wo。

第4步，我们接入一个语言模型，得到汉字"我"。

刚才我讲的4步是目前所有汉语语言脑机文章用的方法。只不过有的文章会在 ERP2Sylb 这步中加上解码声母、韵母、音调的中间步骤。

这方面的工作有上海科技大学的李远宁、西湖大学的 Mohamad Sawan、浙江大学的杨洋、北京师范大学的柳昀哲、深圳河套学院的蔡思祺，已经至少有5篇文章。

汉语的这些解法是从英语研究学过来的。英语在2020年、2021年的文章也是一样的套路：第1步做预处理，第2步切成单词，第3步解单词，第4步把单词合成句子。但是2023年及之后，英语还有一种做法——用【CTC Loss】——可以跳过切单词、解单词这两步。

不切分单词或汉字

CTC 全称是Connectionist Temporal Classification，是2006年在语音识别中被提出的一种方法。当时统计机器学习方法，例如隐马尔可夫链，是语音识别领域的王者，发明者Alex Graves把 Connectionist 直接加入名字中，这样大家一眼就能看出来这方法在用循环神经网络。CTC的具体实现是——语音信号经分帧（帧长 25ms，帧移 10ms，这俩数是古圣先贤帮你调好的）后输入循环神经网络，通过引入 blank 符号和动态规划算法，绕过帧与标签的对齐，从而解码出音素序列，再经过语言模型得到英语句子。把第一步的语音信号换成神经信号，就可以拿到语言脑机接口领域用了。

（懿轩注：Alex Graves是Jurgen的博士生，Hinton的博后，LSTM就是他复兴的。看来那时候Jurgen和Hinton关系还不错）

今年3月末，Neuralink发布了想象语音的视频。它的解码就是典型的【CTC Loss】，因为它两个标签之间的空白可长可短。

（懿轩注：我可以99%确定它用的就是【CTC Loss】，但是因为它没有发论文或者技术报告，所以还有一些不确定性。）

刚才我讲的两条英文解码路径，已经概括了我上一篇视频讲的所有关于长期植入的文章。

未来，汉语语言脑机选择切分还是不切分？

中文脑机里，【CTC Loss】未必就一定强于【切单字、解单字】，原因如下：

中文1-3个音素就组成一个汉字，英语四五个音素才组成一个单词。因此英语单词可以对英语音素进行一轮纠错，而汉语单字不能。
中文常用音节才四百个，英语单词却有一万个。因此英语用切单词是注定做不到常用语的，而汉语可以。

当然，中文上，【CTC Loss】相比于【切单字、解单字】也有好处，最大的好处是——未来真正给中风或渐冻症患者做的时候，患者说每个汉字的发音时长肯定会有差别。若还采用【切单字、解单字】，虽然我们可以通过线性变换进行拉伸或者压缩，但肯定会降低解码准确率。

综上，两条路径都是值得尝试的。

【CTC Loss】不一定非要以音素作为标签。实际上，在CTC统治语音识别的十年里：

英文语音识别SOTA中，CTC的标签经历了从音素到字符再到BPE的变化。
中文语音识别SOTA中，一直在使用汉字作为标签。

那么中文语言脑机能用汉字作为【CTC Loss】的标签吗？——一个难点是数据太少。语音识别领域里数据足够多，动辄可以产生几百万汉字的数据。但是语言脑机，由于患者很疲惫，每周只能采集大约两万字的数据。并且，长期植入时，信号每周需要重新校准。因此，恐怕难以产生类似语音识别那样的数据量。两万个汉字若均摊到3500常用字上，每个汉字才出现5-6次，解码难度可想而知。

语言模型纠错

无论切分还是不切分，都需要用语言模型纠错。

很容易想到，我们可以用多个从小到大的大语言模型进行多轮纠错，从而平衡解码准确率和解码速度。

上图是已经发表文章中采用的大语言模型。从模型大小上，你大概就能猜出来作者们是如何使用的了。

未来汉语语言脑机有可能略过大语言模型纠错吗？——在直接用汉字作为CTC标签前，不太可能。

参考文献

Card, Nicholas S., Maitreyee Wairagkar, Carrina Iacobacci, et al. ‘An Accurate and Rapidly Calibrating Speech Neuroprosthesis’.New England Journal of Medicine391, no. 7 (2024): 609–18. https://doi.org/10.1056/NEJMoa2314132.

Feghhi, Ebrahim, Junlin Hu, Nima Hadidi, and Jonathan C. Kao. ‘LightBeam: An Accurate and Memory-Efficient CTC Decoder for Speech Neuroprostheses’. arXiv:2603.14002. Preprint, arXiv, 14 March 2026. https://doi.org/10.48550/arXiv.2603.14002.

Feng, Chen, Lu Cao, Di Wu, et al. ‘Acoustic Inspired Brain-to-Sentence Decoder for Logosyllabic Language’.Cyborg and Bionic Systems6 (January 2025): 257. https://doi.org/10.34133/cbsystems.0257.

Liu, Yan, Zehao Zhao, Minpeng Xu, et al. ‘Decoding and Synthesizing Tonal Language Speech from Brain Activity’.Science Advances9, no. 23 (2023): eadh0478. https://doi.org/10.1126/sciadv.adh0478.

Makin, Joseph G., David A. Moses, and Edward F. Chang. ‘Machine Translation of Cortical Activity to Text with an Encoder–Decoder Framework’.Nature Neuroscience23, no. 4 (2020): 575–82. https://doi.org/10.1038/s41593-020-0608-8.

Metzger, Sean L., Kaylo T. Littlejohn, Alexander B. Silva, et al. ‘A High-Performance Neuroprosthesis for Speech Decoding and Avatar Control’.Nature620, no. 7976 (2023): 1037–46. https://doi.org/10.1038/s41586-023-06443-4.

Moses, David A., Sean L. Metzger, Jessie R. Liu, et al. ‘Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria’.New England Journal of Medicine385, no. 3 (2021): 217–27. https://doi.org/10.1056/NEJMoa2027540.

Real-Time Decoding of Full Spectrum Chinese Using Brain-Computer Interface. 2025.

Silva, Alexander B., Jessie R. Liu, Sean L. Metzger, et al. ‘A Bilingual Speech Neuroprosthesis Driven by Cortical Articulatory Representations Shared between Languages’.Nature Biomedical Engineering8, no. 8 (2024): 977–91. https://doi.org/10.1038/s41551-024-01207-5.

Willett, Francis R., Erin M. Kunz, Chaofei Fan, et al. ‘A High-Performance Speech Neuroprosthesis’.Nature620, no. 7976 (2023): 1031–36. https://doi.org/10.1038/s41586-023-06377-x.

Yuan, Zhizhang, Yang Yang, Gaorui Zhang, et al. ‘Towards Unified Brain-to-Text Decoding across Speech Production and Perception’. arXiv:2603.12628. Preprint, arXiv, 13 March 2026. https://doi.org/10.48550/arXiv.2603.12628.

Zhang, Daohan, Zhenjie Wang, Youkun Qian, et al. ‘A Brain-to-Text Framework for Decoding Natural Tonal Sentences’.Cell Reports43, no. 11 (2024): 114924. https://doi.org/10.1016/j.celrep.2024.114924.

Zhang, Yizi, Linyang He, Chaofei Fan, et al. ‘Decoding Inner Speech with an End-to-End Brain-to-Text Neural Interface’. arXiv:2511.21740. Preprint, arXiv, 5 December 2025. https://doi.org/10.48550/arXiv.2511.21740.

查看全文

http://www.jsqmd.com/news/900797/