当前位置：首页 > news >正文

香港大学等九所顶尖高校联手攻克脑机接口难题：无需重新训练

news 2026/4/29 6:06:16

这项由香港大学主导，联合深圳回路地区研究院、香港中文大学、上海人工智能实验室、哈佛大学、哥伦比亚大学、华盛顿大学及卡内基梅隆大学的跨国研究团队完成的成果，以预印本形式发布于2026年4月，论文编号为arXiv:2604.08537，有兴趣深入了解的读者可通过该编号查询完整论文。

每个人的大脑，都像一把独一无二的锁。神经科学家们长期以来有一个宏大的梦想：如果能够"读懂"人类的大脑，我们或许可以帮助失去语言能力的患者重新与世界沟通，甚至有朝一日为瘫痪者恢复行动自由。然而，横亘在这个梦想面前的，是一道看似无法逾越的鸿沟——每个人大脑的工作方式都截然不同，今天训练好的模型只能读懂这个人的大脑，换一个人就得重头来过。这就好比你费尽心思配好了一把钥匙，却发现它只能开一扇门，世界上其他所有的锁，它都无能为力。

这支来自九所顶尖机构的研究团队，交出了一份令人振奋的答案。他们开发的系统名叫BrainCoDec（Brain In-Context Decoding，大脑情境解码器），核心能力是：只需给它看一小批来自新人物的"大脑-图像"对照样本，它就能在完全不重新训练的情况下，读懂这个从未见过的陌生人的大脑信号，从中还原出他正在看的图像是什么。这是一把能够自动适配陌生锁孔的万能钥匙。

一、人人大脑各不相同，这件事为什么让科学家头疼了这么多年

要理解这项研究的价值，得先弄清楚大脑成像研究者面对的是什么样的困境。当一个人看到一张猫咪的照片时，他大脑中的神经细胞会产生一系列电信号活动，科学家可以用一种叫做功能性磁共振成像（fMRI）的技术把这些活动记录下来，得到的结果是一张由无数个小方块（称为"体素"，voxel，可以理解为大脑活动地图上的一个个像素点）组成的三维图。

问题在于，同样是看一张猫咪照片，张三大脑里活跃的区域，和李四大脑里活跃的区域，可能相差甚远。这种差异来自每个人独特的成长经历、大脑结构的细微差别，以及神经系统在漫长岁月中形成的个性化"接线方式"。正因如此，研究者们长期以来只能为每一个实验参与者单独训练一个专属的解码模型，就像为每个人量身定制一把钥匙。这个过程不仅耗时费力，需要大量的数据采集，还让大脑解码技术始终停留在"只对少数特定人有效"的阶段，无法走向更广泛的应用。

要实现真正意义上的跨人群脑机接口，研究者们必须回答一个根本性的问题：有没有一种方法，能让计算机自动学会"适应"新面孔的大脑？

二、解锁陌生大脑的核心思路：先建档案，再破解密码

BrainCoDec的工作流程可以用一个侦探档案室的比喻来理解。侦探破案的关键，从来不是死记硬背每一个嫌疑人的长相，而是掌握一套方法论：通过观察一个人留下的几个关键线索，迅速推断出这个人行为的整体规律。

BrainCoDec正是这样运作的。当研究者遇到一个新的实验对象时，他们首先会给这个人看一小批图片，同时记录下他大脑的反应，得到若干"图片-大脑活动"的对照组合。BrainCoDec拿到这些组合之后，分两个阶段完成它的工作。

第一个阶段，可以理解为"建立个人档案"。系统会针对这个人大脑中的每一个体素，单独分析：这个小方块在看到不同图片时，表现出怎样的规律？它对什么类型的视觉信息最敏感？通过这种分析，系统为每一个体素建立一个数学描述，相当于为这个人大脑的每一个角落制作了一份"性格档案"。负责完成这项工作的，是一个经过特殊训练的神经网络，它的前身是哥伦比亚大学和卡内基梅隆大学等机构此前开发的BrainCoRL模型，专门用来预测大脑某个区域对给定图像的反应强度。

第二个阶段，则是"根据档案破解密码"。当这个人看到一张新图片时，系统得到了他大脑各区域的实时活动数据。系统把第一阶段建立的档案和这次的实时活动数据拼合在一起，交给另一个专门训练的神经网络进行综合分析，最终输出对这张新图片内容的推断——具体来说，是推断出这张图片在一个标准视觉语义空间（由CLIP、DINO或SigLIP等预训练视觉模型提供）中对应的坐标，有了这个坐标，就能在一个图片库中找到最接近的候选图片。

这套两阶段的设计，让BrainCoDec既能捕捉个体间的差异（第一阶段），又能发挥跨个体学习到的通用规律（第二阶段），二者缺一不可。

三、让机器学会"举一反三"：元学习的秘密

BrainCoDec最核心的技术秘密，藏在它的训练方式里。这里需要介绍一个叫做"元学习"的概念，它的目标不是让机器学会解决某一道特定的题目，而是让机器学会"如何快速学会解题"。

一个好的例子是考试前的复习策略。死记硬背某套题目答案的学生，换一套题就会手足无措；而真正掌握解题方法的学生，哪怕面对从未见过的题目，也能游刃有余地应对。BrainCoDec的训练目标就是后者：它通过大量不同实验参与者的大脑数据进行训练，学习的不是"如何读懂张三的大脑"，而是"如何从几个样本快速推断出任何人大脑的工作规律"。

这种能力在技术上被称为"情境学习"（in-context learning）。借用最近大语言模型领域的一个现象来理解：ChatGPT这类大型语言模型，在对话过程中只需要看到几个例子，就能推断出用户想要什么样的回答风格，并且在不修改自身参数的情况下完成调整。BrainCoDec把同样的原理应用到了大脑解码领域，实现了在不更新任何模型权重的前提下，快速适应新面孔大脑的能力。

为了让系统在训练阶段就养成这种灵活适应的习惯，研究团队设计了一套分三步走的训练流程。第一步是"纸上练兵"：用计算机合成的虚拟大脑数据进行预训练，让模型建立对大脑编码规律的基本认知，这一步完全不需要真实的脑成像数据。第二步是"拓展眼界"：在训练过程中随机改变每次输入的体素数量（从200到4000个不等），让模型学会灵活处理不同规模的输入，不管新用户的大脑数据多少，都能从容应对。第三步是"实战磨砺"：用真实的fMRI数据进行精调，让模型的感知贴近真实神经信号的统计特征。经过这三步的锻炼，BrainCoDec就具备了在没有任何额外训练的情况下，直接迁移到新用户身上的能力。

四、在两个大型数据集上接受考验

研究团队在两个规模不同、采集条件也大相径庭的数据集上，对BrainCoDec进行了严格测试。

主要测试场地是"自然场景数据集"（NSD），这是目前世界上最大的7特斯拉高精度fMRI视觉数据集，每位参与者在扫描仪中看了约一万张不同的图片。研究团队选取了其中四位完成了全部扫描任务的参与者（编号S1、S2、S5、S7）作为主要评估对象，采用的方式是"留一法"：每次训练时，将其中三位参与者的数据用于训练，剩下一位的数据完全保留作为测试，确保被测者在模型训练阶段从未被见过。与此同时，另外四位只完成了部分扫描的参与者（S3、S4、S6、S8）也被纳入了补充测试，同样是对这些人完全陌生的情况下进行解码。

第二个测试场地是"BOLD5000"数据集，这个数据集用的是3特斯拉（精度低于NSD）的普通临床级磁共振扫描仪，采集了完全不同的受试者看约五千张图片的大脑反应。重要的是，BrainCoDec在这里使用的，是完全在NSD上训练好的模型，没有任何针对BOLD5000的再训练，这意味着它需要跨越扫描仪型号、磁场强度、扫描参数和被试人群的多重差异。

测试的核心指标是"图片检索准确率"：给定一个人看某张图片后的大脑信号，系统能否从一个包含数百到一千张候选图片的库中，找到这张被看到的图片？每次只提供200张"建档"用的参照图片，相当于研究者只有机会观察这个陌生人大脑对200张图片的反应，就要开始对新图片进行解码。

五、数字背后的故事：BrainCoDec究竟表现如何

对比实验的结果，用"差距悬殊"来形容并不为过。

在NSD四位完整参与者的测试中，BrainCoDec在"Top-1准确率"（即系统的第一个猜测就命中正确图片的概率）上，四位参与者的平均成绩达到22.7%。作为对比，目前业界公认的最强跨被试解码方法MindEye2（它实际上需要把所有用户的大脑数据对齐到一个标准解剖模板，有一定的解剖对齐要求）在同样的任务上平均只有3.90%；另一个参照方法TGBD的平均成绩则仅有0.82%。如果把目标放宽到"Top-5准确率"（系统给出的前五个猜测中有一个命中），BrainCoDec的平均成绩是54.0%，而MindEye2只有9.81%。

换一个更直观的角度来理解这个数字：在907张候选图片中随机猜一张的概率大约是0.11%，MindEye2的成绩相当于比随机猜测好了大约三十五倍，而BrainCoDec的成绩则相当于比随机猜测好了约两百倍。

对于另外四位没有完成全部扫描的参与者（S3、S4、S6、S8），BrainCoDec的Top-1准确率在14.4%到20.1%之间，同样大幅领先于其他方法。

在完全不同的BOLD5000数据集上，BrainCoDec仅凭20张"建档"图片，在20张测试图片的五折交叉验证中，使用CLIP特征的Top-1准确率达到31.45%（随机猜测概率为5%），Top-5准确率高达81.67%，平均排名仅为3.49，意味着系统的猜测平均排在前几位之内。

六、越多信息越准确：两个维度上的"喂饱效应"

BrainCoDec有一个非常直观的特性：给它的信息越多，它的表现就越好。而且这种提升在两个完全独立的维度上都有体现。

第一个维度是"建档图片数量"，也就是在正式解码新图片之前，研究者给这个新用户看了多少张用于建立档案的图片。实验显示，随着建档图片从50张增加到600张，四位NSD参与者的Top-1准确率都呈现出稳步上升的趋势。尤其是在图片数量较少时，增加每一张图片带来的提升都相当显著。值得欣慰的是，在仅有200张建档图片的情况下，BrainCoDec已经能够达到相当不错的解码水平，这意味着即便实验时间有限、数据有限，这套系统也能正常工作。

第二个维度是"参与解码的体素数量"，也就是在第二阶段的综合分析中，系统能看到多少个来自这个人大脑的信号点。随着体素数量从接近零增加到两万个，解码准确率同样持续上升。在CLIP、DINO和SigLIP三种不同视觉特征空间下，这个趋势在所有测试参与者身上都表现一致。更有意思的是，当体素数量达到约4000个时，性能已经接近使用全部体素的水平，说明系统能够从相对有限的信号中提取出足够充分的信息。

这种双维度的"喂饱效应"，为实际应用提供了重要的灵活性：研究者可以根据实际条件，在数据采集时间和解码精度之间做出合理权衡。

七、消融实验：一砖一瓦的重要性

为了验证BrainCoDec的每个设计决策是否真的必要，研究团队做了一系列"拆零件"测试，依次去掉某个组成部分，观察性能的变化。

纯合成数据预训练版本（不使用任何真实fMRI数据）的余弦相似度（衡量预测与真实图像特征的接近程度）大约在0.19到0.23之间；梯度下降直接求逆版本（用传统数学优化方法强行反推图像）的余弦相似度约在0.30到0.32之间；而使用真实数据训练、并进行了被试隔离的正式BrainCoDec版本的余弦相似度则高达0.79到0.81，提升幅度极为显著。

更有意思的是，允许模型在训练时见过这位被试数据的"无隔离"版本（BrainCoDec no HO），其余弦相似度为0.80到0.82，与正式版本几乎没有差距。这个结论在技术上具有深刻含义：即便模型在训练时从未接触过某个特定被试，它的解码性能也几乎与"见过"这位被试的版本相当，证明了元学习策略的有效性，也证明了这套系统在真实世界部署中的可靠性。

八、拆掉特定脑区，系统还能正常运转吗

大脑皮层有许多功能专一化的区域，比如负责识别面孔的梭状回（FFA），负责识别场所和建筑的海马旁回（PPA）、枕叶场所区（OPA）和压后皮层（RSC），负责识别文字的视觉词形区，以及负责识别身体部位的体外纹状区（EBA）。一个合理的猜测是：如果系统在解码面孔图片时，主要依赖的是FFA区域的信号，那么一旦把这个区域的数据屏蔽掉，解码能力应该会显著下滑。

研究团队专门设计了一组实验来检验这个猜测。他们先用独立的功能定位实验确认了每位参与者大脑中食物、面孔、场所、文字各类别的专属敏感区域，然后找出测试图片中最能激活这些区域的图片，接着把对应的功能区体素从解码过程中完全屏蔽，再观察解码性能的变化。

结果颇为出乎意料。对于面孔、食物和文字类别的图片，即便把专门负责这些类别的功能区屏蔽掉，解码性能的下降幅度在大多数被试和条件下都非常有限，甚至有些情况下几乎没有明显变化。这说明BrainCoDec并不依赖于某个单一的"特权"脑区来完成解码，而是学会了从分布在整个高级视觉皮层的大量信号中提取信息，具备很强的冗余容错能力。

场景类别是一个例外：屏蔽掉PPA、OPA和RSC这三个场所选择性区域，对场所类图片的解码性能造成了统计上显著的下降。这个结果也符合神经科学对这些区域功能的认知——它们在场所感知中扮演的角色确实更为核心和不可替代。

九、注意力地图：系统"目光"落在哪里

BrainCoDec内部的变换器（transformer）网络，在处理来自不同体素的信号时，会对每个体素分配不同的"关注度"，这种关注度分布可以通过提取注意力权重（attention weights）来可视化。研究团队把这些注意力权重投影到大脑皮层的平面展开图上，得到了一组令人印象深刻的对比图。

当系统在解码面孔类图片时，它的注意力明显集中在梭状回面孔区（FFA）和体外纹状区（EBA）等已知的面孔和身体识别区域；当系统在解码场所类图片时，注意力则转移到了PPA、OPA和RSC等场所识别区域。这种分布与神经科学通过几十年独立研究建立起来的功能定位图谱，高度吻合。

研究团队还进一步用UMAP（一种数学降维工具，可以把高维数据的结构压缩到可视化的二维或三维空间）把整个测试集的体素注意力权重投射到一个三维空间中，发现不同功能属性的体素在这个空间中形成了清晰分离的聚类：面孔和身体选择性区域（EBA、FFA等）聚集在一起形成绿色群落，场所选择性区域（RSC、OPA、PPA等）聚集在另一处形成红色群落。这种自发涌现的语义聚类结构，并没有被显式地编码进训练目标中，而是系统在学习解码任务的过程中自然发展出来的，为理解高级视觉皮层的组织方式提供了新的计算视角。

十、从实验室走向真实世界的一步

BrainCoDec的技术路线和实验结果，指向了一个更宏观的目标：建立一套能够服务于整个人类群体的通用大脑解码基础模型。在这个目标的背景下，有几个具体的应用方向值得关注。

在脑机接口领域，目前因为肌萎缩侧索硬化（渐冻症）、脊髓损伤等疾病而失去运动或语言能力的患者，如果要使用基于大脑信号的辅助沟通设备，往往需要花费大量时间对设备进行个性化校准。BrainCoDec这类不需要重新训练的跨被试方法，可能大幅缩短这个过程，让更多患者能够更快地受益于技术的进步。

在认知科学研究领域，大脑的个体差异本身是重要的研究对象。BrainCoDec提供了一种工具，能够在不对每个被试单独建模的情况下，对大规模人群进行神经表征的比较研究，这对于建立人口级别的大脑功能理论具有重要意义。

研究团队也明确指出，相同的框架原则上可以扩展到EEG（脑电图）、MEG（脑磁图）等其他大脑信号记录技术，为这些成本更低、使用更方便的技术赋予更强的泛化能力。

说到底，BrainCoDec并没有宣称已经"破解"了大脑的全部秘密。它解码的是图像在高维视觉语义空间中的"坐标"，而不是直接生成逼真的重建图像——不过论文也指出，这个坐标可以进一步通过Stable Diffusion等图像生成模型转化为具体图像，只是这部分功能不是本文的研究重点。更重要的是，这项研究证明了一件此前被普遍认为极其困难的事：机器完全可以通过少量样本，无需重新训练，就学会适应一个全新的大脑。这把"万能钥匙"，已经在实验室里成功开锁。

归根结底，大脑解码这件事，比想象中既更困难，也更有希望。困难在于每个人的神经地图都是独一无二的，希望则在于人类大脑尽管千差万别，却分享着同一套视觉认知的底层逻辑——而BrainCoDec恰恰学会了如何利用这套共同逻辑，灵活打开每一扇不同的门。对于这项研究结果感到好奇的读者，可以通过论文编号arXiv:2604.08537获取完整的技术细节，代码和模型也已在GitHub上公开发布。

Q&A

Q1：BrainCoDec解码的是什么？它能直接还原人眼看到的图像吗？

A：BrainCoDec解码的是图像在一个标准视觉语义空间中的"坐标"，简单说就是推断图像的内容特征，然后在一个候选图片库中找到最接近的图片。它的核心评估任务是图片检索，而非直接生成像素级别的重建图像。不过，这个解码结果可以进一步接入Stable Diffusion等图像生成模型，生成视觉上更逼真的重建图像，只是这部分不是论文的主要研究内容。

Q2：BrainCoDec需要多少张图片才能开始解码陌生人的大脑？

A：实验表明，仅凭200张"建档"图片（即给新用户看200张图片并记录他的大脑反应），BrainCoDec就能实现相当不错的解码性能，在NSD数据集上Top-1准确率平均达到22.7%，远超其他方法。图片数量越多性能越好，但在资源有限的情况下，200张已经足够实用。

Q3：BrainCoDec换了不同的核磁共振扫描仪还能用吗？

A：可以。研究团队在完全不同的BOLD5000数据集上进行了测试，该数据集使用3特斯拉扫描仪（NSD使用7特斯拉），采集参数、图片集和被试人群都与训练数据截然不同，BrainCoDec没有任何针对性再训练，仅凭20张建档图片就实现了CLIP特征Top-1准确率31.45%、Top-5准确率81.67%的成绩，证明了其跨扫描仪的泛化能力。

查看全文

http://www.jsqmd.com/news/717682/