当前位置: 首页 > news >正文

2025_NIPS_Transformer brain encoders explain human high-level visual responses

文章总结与翻译

一、主要内容

本文聚焦神经科学中“理解自然场景视觉处理的大脑计算机制”这一核心目标,提出一种基于Transformer架构的大脑编码器模型,用于预测人类观看自然场景时的大脑活动。

  1. 研究背景:传统线性编码模型存在参数规模庞大、忽略特征图结构、仅能捕捉固定感受野等局限,难以适配高级视觉区域的动态信息路由需求;而现有空间-特征分解模型虽简化参数,但仍无法实现基于内容的动态路由。
  2. 核心方法
    • 采用Transformer编解码器框架,将输入图像分割为补丁并通过预训练骨干网络(如DINOv2、ResNet50、CLIP)提取特征;
    • 解码器引入可学习的脑区兴趣点(ROI)查询向量,通过交叉注意力机制动态筛选与特定ROI相关的视觉特征,实现内容依赖的信息路由;
    • 支持ROI级和顶点级两种路由粒度,且可通过骨干网络层集成进一步优化早期视觉区域的预测性能。
  3. 实验验证:基于Natural Scene Dataset(NSD)的fMRI数据(8名受试者,每人最多10,000张图像),在不同骨干网络和模态下,该模型在预测大脑活动的编码准确率上显著优于岭回归、PCA+回归、基于显著性的集成等基线模型,尤其在高级分类视觉区域(如面孔选择性区域FFA、身体选择性区域EBA)表现突出;同时仅需数百个训练样本即可达到良好性能,且在文本模态(图像描述)上也验证了方法的通用性。
  4. 模型可解
http://www.jsqmd.com/news/490783/

相关文章:

  • Select、Poll、Epoll详解:核心区别与实战用法
  • coding plan vs token
  • 高级java每日一道面试题-2025年8月28日-业务篇[LangChain4j]-如何使用 LangChain4j 实现智能投研助手?需要处理哪些金融数据源?
  • LeetCode Hot100(66/100)——118. 杨辉三角
  • Qt进程间通信
  • LeetCode Hot100(68/100)——198. 打家劫舍
  • 【LLM进阶-Agent】13.function call vs mcp vs skills
  • 2025_NIPS_EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs
  • 告别绘图软件!Paperxie AI 科研绘图:10 次免费额度,让理工科论文可视化一步到位
  • Tower I3C Host Adapter 使用范例 (20)
  • 【C++】左值引用、右值引用
  • CS二开之睡眠混淆(五)BeaconGate,UDRL,Sleepmask组合拳
  • AI新范式 02|拆解世界模型:它是如何理解物理规律的?
  • WebRTC QoS方法之NetEQ在流量卡弱网应用下失效
  • Java基础-1
  • 2025_NIPS_Scaling RL to Long Videos
  • 【Dv3Admin】FastCRUD MD编辑器操作
  • open claw安装在windows wsl中教程
  • HDOJ 课程例题记录
  • 第三方 API 调用 OpenClaw 出现 LLM request timed out 的解决方案
  • openclaw+qwen(笔记,非教程)
  • 讲讲普通小轿车驾驶证报考流程及费用,西安哪家驾校好? - mypinpai
  • UE5C++Part2--几种常见的变量类型
  • 企业级RustDesk私有化部署:Docker Swarm集群方案与安全加固指南
  • (85页PPT)某著名企业贝因美IT规划咨询报告(附下载方式)
  • Simulink仿真漂移机理分析(二):相图分析
  • R轻松玩转Excel数据
  • 课程记录:Windows2
  • 高德地图混合部署实战:离线瓦片与在线API的智能切换策略
  • 西安国文驾校二轮摩托车考驾照口碑如何,值得推荐吗 - 工业品牌热点