当前位置: 首页 > news >正文

在视觉领域,transformer为什么能代替CNN? - Kernel

当数据集较小时,CNN 的性能更好;但当数据量大到一定程度(如 JFT-300M 数据集),Transformer(ViT)的性能曲线会斜率更高,最终反超 CNN。其原因可以归结为以下三点:

表达能力的上限

CNN 的归纳偏置(局部性、平移不变性)是一把双刃剑。它预设了特征必须是“局部相关”的。

这种限制在数学上相当于在一个受限的函数子空间中进行搜索。虽然这让模型更容易在小样本下收敛,但也限制了模型去捕捉那些“非局部、非平移不变”的复杂高阶特征的能力。

Transformer 的优势: 它几乎没有归纳偏置。自注意力机制(Self-Attention)允许任何两个像素(Token)之间产生联系。

从数学上讲,它的假设空间(Hypothesis Space)远大于 CNN。当数据足够多时,Transformer 不需要人类告诉它“应该看局部”,它能自己从海量数据中学习出比“卷积”更优的算子。

感受野:全局 vs 局部

CNN 的“慢热”: 在 CNN 中,感受野是随着层数加深逐渐扩大的。第一层只看几个像素,只有到了深层才能看到物体全貌。这意味着底层网络无法利用全局信息来辅助局部特征的提取。

Transformer 的“全局直觉”: Transformer 的每一层都具有全局感受野。这意味着在处理图片的第一个字节时,它就已经在考虑这张图全局的上下文。对于大型、复杂的场景理解,这种“天花板级别”的全局建模能力是 CNN 难以通过简单堆叠卷积核来实现的。

数据驱动的“解题思路”

从长远来看,利用计算和数据的通用方法总是会胜过利用人类专业知识(归纳偏置)的特定方法。

在数据匮乏时,CNN 靠人类提供的“图像先验知识”带路。

在数据极大时,Transformer 靠强力的大规模参数拟合,自己悟出了图像的内在规律。

实验发现: 经过大规模预训练后,ViT 内部学到的某些层竟然自发地演化出了类似“卷积”或“索贝尔算子”的局部感知能力,这证明了 Transformer 的上限包容了 CNN 的下限。

http://www.jsqmd.com/news/294787/

相关文章:

  • 基于深度学习的农业日常害虫检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)
  • 2026年GEO优化服务商选型全解析:聚焦服务模式,实现精准匹配
  • 10. 构造方法和析构方法
  • 【一竞技】LCK第一赛段:落后一万四惊天逆转 T1 2比0横扫KT!
  • 学长亲荐2026自考AI论文网站TOP8:开题报告全测评
  • GEO优化服务商怎么选?2026年核心技术底层深度解析与精准选型指南
  • 2026年二手物资回收厂家权威推荐榜:制冷设备回收、办公座椅回收、办公设备回收、大型卖场回收、工厂设备回收、工地二手空调采购选择指南
  • 9 大指标筛真服务商:2026 GEO 优化服务商数据监测能力评级指南
  • 2026年川南优秀空调回收品牌推荐指南
  • 测开面试题:数组和链表的区别
  • 用Python requests库玩转接口自动化测试!测试工程师的实战秘籍
  • 玛丽·巴芙特的新兴市场价值投资:高风险中的高回报
  • 大数据领域A_B测试的成本效益分析
  • 实用指南:PERL Docker 容器化部署指南
  • 2026年牙齿矫正公司权威推荐:三甲口腔医院有哪些、儿童牙齿矫正、儿童看牙口腔医院多少钱、口腔医院口碑怎么样、口腔医院根管治疗选择指南
  • 坚守真理本真,涵养思想主权 | Uphold the Essence of Truth, Cultivate the Sovereignty of Thought
  • 大数据环境下半结构化数据的挖掘算法对比
  • 深度测评10个AI论文写作软件,本科生毕业论文必备!
  • 鸿蒙中级课程笔记2—状态管理V2—@Provider装饰器和@Consumer装饰器:跨组件层级双向同步
  • 鸿蒙中级课程笔记2—状态管理V2—@Monitor装饰器:状态变量修改监听
  • 鸿蒙中级课程笔记2—状态管理V2—@Computed装饰器:计算属性
  • 鸿蒙中级课程笔记2—状态管理V2—@Local
  • 鸿蒙中级课程笔记2—状态管理V2—@Param
  • 鸿蒙中级课程笔记2—状态管理V2—@Once、@Event
  • 2026广安种植牙优质机构推荐榜 高性价比之选
  • 深入 Pinia 工作原理:响应式核心、持久化机制与缓存策略 - 教程
  • 构建AI Agent的自适应学习系统
  • 软件测试之单元测试
  • 京城爱加陪诊官方电话声明
  • 如何高效阅读学术文献:硕士研究生完全指南