当前位置: 首页 > news >正文

语言脑机接口解码流程对比【脑机接口恢复语言2】

上期视频大家过了一遍语言脑机接口的发展历史,这期就来对比一下各篇文章的解码流程。

切分单词或汉字

首先,我们让患者看着屏幕,要求他/她朗读、默读或想象屏幕上的汉字,同时记录侵入式的脑信号,这篇论文里用的是 ECoG 电极。

这时我们记录到的只是原始数据,原始数据中包含很多噪声和毛刺,这些是无用信息。

(懿轩注:其实若计算资源丰富,也可以试试能否从这些毛刺中挖掘出一些有用信息)

第1步,我们要经过希尔伯特变换提取出原始曲线的包络,从而去除这些噪声和毛刺。如图所示,灰色的曲线是原始数据,彩色的7条线是包络,对应的是7个频段,如果忘了频段,可以回我上期的视频看一下。

第1步后,我们得到的数据是连续的一段,比如说这是患者在说"我很欣赏烟台这个城市"时的脑信号。

第2步,我们要检测出患者说每个汉字的时刻,把这一整句切成多个汉字,比如图中的这条红线就是句子里的"我"。

第3步,我们训练一个深度学习解码器,把刚才"我"的脑信号解码成"我"的音节,也就是 wo。

第4步,我们接入一个语言模型,得到汉字"我"。

刚才我讲的4步是目前所有汉语语言脑机文章用的方法。只不过有的文章会在 ERP2Sylb 这步中加上解码声母、韵母、音调的中间步骤。

这方面的工作有上海科技大学的李远宁、西湖大学的 Mohamad Sawan、浙江大学的杨洋、北京师范大学的柳昀哲、深圳河套学院的蔡思祺,已经至少有5篇文章。

汉语的这些解法是从英语研究学过来的。英语在2020年、2021年的文章也是一样的套路:第1步做预处理,第2步切成单词,第3步解单词,第4步把单词合成句子。但是2023年及之后,英语还有一种做法——用【CTC Loss】——可以跳过切单词、解单词这两步。

不切分单词或汉字

CTC 全称是Connectionist Temporal Classification,是2006年在语音识别中被提出的一种方法。当时统计机器学习方法,例如隐马尔可夫链,是语音识别领域的王者,发明者Alex Graves把 Connectionist 直接加入名字中,这样大家一眼就能看出来这方法在用循环神经网络。CTC的具体实现是——语音信号经分帧(帧长 25ms,帧移 10ms,这俩数是古圣先贤帮你调好的)后输入循环神经网络,通过引入 blank 符号和动态规划算法,绕过帧与标签的对齐,从而解码出音素序列,再经过语言模型得到英语句子。把第一步的语音信号换成神经信号,就可以拿到语言脑机接口领域用了。

(懿轩注:Alex Graves是Jurgen的博士生,Hinton的博后,LSTM就是他复兴的。看来那时候Jurgen和Hinton关系还不错)

今年3月末,Neuralink发布了想象语音的视频。它的解码就是典型的【CTC Loss】,因为它两个标签之间的空白可长可短。

(懿轩注:我可以99%确定它用的就是【CTC Loss】,但是因为它没有发论文或者技术报告,所以还有一些不确定性。)

刚才我讲的两条英文解码路径,已经概括了我上一篇视频讲的所有关于长期植入的文章。

未来,汉语语言脑机选择切分还是不切分?

中文脑机里,【CTC Loss】未必就一定强于【切单字、解单字】,原因如下:

  1. 中文1-3个音素就组成一个汉字,英语四五个音素才组成一个单词。因此英语单词可以对英语音素进行一轮纠错,而汉语单字不能。
  2. 中文常用音节才四百个,英语单词却有一万个。因此英语用切单词是注定做不到常用语的,而汉语可以。

当然,中文上,【CTC Loss】相比于【切单字、解单字】也有好处,最大的好处是——未来真正给中风或渐冻症患者做的时候,患者说每个汉字的发音时长肯定会有差别。若还采用【切单字、解单字】,虽然我们可以通过线性变换进行拉伸或者压缩,但肯定会降低解码准确率。

综上,两条路径都是值得尝试的。

【CTC Loss】不一定非要以音素作为标签。实际上,在CTC统治语音识别的十年里:

  1. 英文语音识别SOTA中,CTC的标签经历了从音素到字符再到BPE的变化。
  2. 中文语音识别SOTA中,一直在使用汉字作为标签。

那么中文语言脑机能用汉字作为【CTC Loss】的标签吗?——一个难点是数据太少。语音识别领域里数据足够多,动辄可以产生几百万汉字的数据。但是语言脑机,由于患者很疲惫,每周只能采集大约两万字的数据。并且,长期植入时,信号每周需要重新校准。因此,恐怕难以产生类似语音识别那样的数据量。两万个汉字若均摊到3500常用字上,每个汉字才出现5-6次,解码难度可想而知。

语言模型纠错

无论切分还是不切分,都需要用语言模型纠错。

很容易想到,我们可以用多个从小到大的大语言模型进行多轮纠错,从而平衡解码准确率和解码速度。

上图是已经发表文章中采用的大语言模型。从模型大小上,你大概就能猜出来作者们是如何使用的了。

未来汉语语言脑机有可能略过大语言模型纠错吗?——在直接用汉字作为CTC标签前,不太可能。

参考文献

Card, Nicholas S., Maitreyee Wairagkar, Carrina Iacobacci, et al. ‘An Accurate and Rapidly Calibrating Speech Neuroprosthesis’.New England Journal of Medicine391, no. 7 (2024): 609–18. https://doi.org/10.1056/NEJMoa2314132.

Feghhi, Ebrahim, Junlin Hu, Nima Hadidi, and Jonathan C. Kao. ‘LightBeam: An Accurate and Memory-Efficient CTC Decoder for Speech Neuroprostheses’. arXiv:2603.14002. Preprint, arXiv, 14 March 2026. https://doi.org/10.48550/arXiv.2603.14002.

Feng, Chen, Lu Cao, Di Wu, et al. ‘Acoustic Inspired Brain-to-Sentence Decoder for Logosyllabic Language’.Cyborg and Bionic Systems6 (January 2025): 257. https://doi.org/10.34133/cbsystems.0257.

Liu, Yan, Zehao Zhao, Minpeng Xu, et al. ‘Decoding and Synthesizing Tonal Language Speech from Brain Activity’.Science Advances9, no. 23 (2023): eadh0478. https://doi.org/10.1126/sciadv.adh0478.

Makin, Joseph G., David A. Moses, and Edward F. Chang. ‘Machine Translation of Cortical Activity to Text with an Encoder–Decoder Framework’.Nature Neuroscience23, no. 4 (2020): 575–82. https://doi.org/10.1038/s41593-020-0608-8.

Metzger, Sean L., Kaylo T. Littlejohn, Alexander B. Silva, et al. ‘A High-Performance Neuroprosthesis for Speech Decoding and Avatar Control’.Nature620, no. 7976 (2023): 1037–46. https://doi.org/10.1038/s41586-023-06443-4.

Moses, David A., Sean L. Metzger, Jessie R. Liu, et al. ‘Neuroprosthesis for Decoding Speech in a Paralyzed Person with Anarthria’.New England Journal of Medicine385, no. 3 (2021): 217–27. https://doi.org/10.1056/NEJMoa2027540.

Real-Time Decoding of Full Spectrum Chinese Using Brain-Computer Interface. 2025.

Silva, Alexander B., Jessie R. Liu, Sean L. Metzger, et al. ‘A Bilingual Speech Neuroprosthesis Driven by Cortical Articulatory Representations Shared between Languages’.Nature Biomedical Engineering8, no. 8 (2024): 977–91. https://doi.org/10.1038/s41551-024-01207-5.

Willett, Francis R., Erin M. Kunz, Chaofei Fan, et al. ‘A High-Performance Speech Neuroprosthesis’.Nature620, no. 7976 (2023): 1031–36. https://doi.org/10.1038/s41586-023-06377-x.

Yuan, Zhizhang, Yang Yang, Gaorui Zhang, et al. ‘Towards Unified Brain-to-Text Decoding across Speech Production and Perception’. arXiv:2603.12628. Preprint, arXiv, 13 March 2026. https://doi.org/10.48550/arXiv.2603.12628.

Zhang, Daohan, Zhenjie Wang, Youkun Qian, et al. ‘A Brain-to-Text Framework for Decoding Natural Tonal Sentences’.Cell Reports43, no. 11 (2024): 114924. https://doi.org/10.1016/j.celrep.2024.114924.

Zhang, Yizi, Linyang He, Chaofei Fan, et al. ‘Decoding Inner Speech with an End-to-End Brain-to-Text Neural Interface’. arXiv:2511.21740. Preprint, arXiv, 5 December 2025. https://doi.org/10.48550/arXiv.2511.21740.

http://www.jsqmd.com/news/900797/

相关文章:

  • 别让天线罩毁了你的毫米波雷达!从材料选择到壁厚计算,一份给硬件工程师的避坑指南
  • 灰子学Ai: Token与字节
  • STM32L0 LPUART串口卡死?别慌,HAL库ORE溢出错误的保姆级排查与修复指南
  • 告别纸上谈兵:用Wireshark抓包实战解析5G N2/NGAP切换全流程(附pcap文件)
  • 索引设计 实操SQL + 案例 + 练习
  • k8s-Prometheus的manifests 清单部署
  • 别再乱试了!用Wireshark精准定位微信/QQ通话IP的保姆级教程(附过滤语法)
  • 研一开学别慌!用这套保姆级YOLOv5实战路线,从零到跑通代码只要三个月
  • 保姆级教程:用Grad-CAM可视化Swin Transformer,看看你的模型到底在“看”哪里
  • 手机变Linux开发机:用Termux和MT管理器打造移动端代码编辑与文件管理环境
  • .NET + 消息队列:稳稳扛住百亿流水,这才是企业级架构的真正底气
  • sd卡病毒格式化文件怎么恢复正常,只需4种方法和视频演示轻松恢复数据
  • 如何高效使用AutoDingding实现钉钉自动打卡:终极实用指南
  • S32K3xx低功耗实战:用LPUART串口唤醒Standby模式,保姆级配置流程(基于Platform SDK 2022.03)
  • 第 3 篇:把 MCP 接入 AI,以及生态里有什么
  • STM32F1用HAL库驱动42步进电机:CubeMX配置PWM定时器(TIM3)保姆级教程
  • 从野外数据到地下构造:手把手教你用地震时距曲线做一次‘虚拟勘探’
  • Cadence SPB17.4 CIS库添加新元件失败?手把手教你排查‘找不到元件’的5个常见坑
  • AI品牌命名避坑清单(含12个高危词根、6类语音陷阱、4种文化禁忌),错过本次更新将影响全球市场准入
  • AI 助手类应用通用安全漏洞:间接提示注入可窃取企业敏感数据
  • 告别65535行限制:用QGIS一键把大型SHP文件导出为Excel表格
  • RK3566开发板GT911触屏调试避坑指南:从I2C检测到DTS配置的完整流程
  • 2026年 宝钢镀锌HC550/980DPD+Z双相钢厂家/供应商推荐榜:高强度与卓越成型性能的行业优选品牌 - 品牌企业推荐师(官方)
  • C# 终于支持 union types 了
  • NestJS项目接口权限怎么管理?结合Swagger文档清晰展示JWT守卫与角色控制
  • 从普通到Low ESR:手把手教你读懂铝电解电容规格书里的‘损耗角’与ESR换算
  • 3分钟掌握:tchMaterial-parser电子课本下载工具完整使用指南
  • 数据仓库实战:当Hive表插错数据后,我是如何用‘重写’而不是‘删除’来救场的
  • 【网安-Web渗透测试-免杀系列】PowerShell免杀
  • 别再死记硬背公式了!用Python+Matplotlib手把手教你画滤波器的Bode图(附代码)