当前位置：首页 > news >正文

2025_NIPS_Transformer brain encoders explain human high-level visual responses

news 2026/5/12 15:06:33

文章总结与翻译

本文聚焦神经科学中“理解自然场景视觉处理的大脑计算机制”这一核心目标，提出一种基于Transformer架构的大脑编码器模型，用于预测人类观看自然场景时的大脑活动。

研究背景：传统线性编码模型存在参数规模庞大、忽略特征图结构、仅能捕捉固定感受野等局限，难以适配高级视觉区域的动态信息路由需求；而现有空间-特征分解模型虽简化参数，但仍无法实现基于内容的动态路由。
核心方法：
- 采用Transformer编解码器框架，将输入图像分割为补丁并通过预训练骨干网络（如DINOv2、ResNet50、CLIP）提取特征；
- 解码器引入可学习的脑区兴趣点（ROI）查询向量，通过交叉注意力机制动态筛选与特定ROI相关的视觉特征，实现内容依赖的信息路由；
- 支持ROI级和顶点级两种路由粒度，且可通过骨干网络层集成进一步优化早期视觉区域的预测性能。
实验验证：基于Natural Scene Dataset（NSD）的fMRI数据（8名受试者，每人最多10,000张图像），在不同骨干网络和模态下，该模型在预测大脑活动的编码准确率上显著优于岭回归、PCA+回归、基于显著性的集成等基线模型，尤其在高级分类视觉区域（如面孔选择性区域FFA、身体选择性区域EBA）表现突出；同时仅需数百个训练样本即可达到良好性能，且在文本模态（图像描述）上也验证了方法的通用性。
模型可解