当前位置: 首页 > news >正文

02 Transformer 基础:Self-Attention 原理详解

1. Self-Attention?

ViT 的核心不是“把图像切成 patch”这么简单。

图像切成 patch 只是第一步。真正让 ViT 能够建模图像全局关系的,是 Transformer Encoder 中的 Self-Attention。在 CNN 中,图像信息通常通过卷积层逐步传播。一个像素或者一个局部区域想要和远处区域发生关系,往往需要经过多层卷积堆叠。而在 Self-Attention 中,所有 token 之间都可以直接计算关系。如果放到 ViT 中理解:

每个图像 patch 都是一个 token;
Self-Attention 会计算每个 patch 和其他 patch 的关系;
模型根据这些关系重新聚合图像信息。

也就是说,Self-Attention 让 ViT 不再只能从局部一步步看图,而是可以直接比较图像中任意两个 patch 之间的联系。这就是它和 CNN 最核心的区别之一。

2. 从一个简单例子理解 Attention

在正式讲公式之前,我们先用一个简单例子理解 Attention。假设一句话是:

我 喜欢 计算机 视觉

这句话中有 4 个 token。当模型处理“视觉”这个词时,它可能需要关注前面的“计算机”,因为“计算机视觉”是一个整体概念。当模型处理“喜欢”这个词时,它可能需要关注“我”,因为“我”是动作的发出者。所以,Attention 的核心思想可以简单理解为:当前 token 在更新自己的表示时,不是只看自己,而是会根据相关性去关注其他 token。

换句话说,每个 token 都会问一个问题:在当前上下文中,我应该重点关注哪些 token?这个“关注程度”就是 attention weight。

3. Query、Key、Value 是什么?

Self-Attention 中最容易让人困惑的三个概念就是:

Query Key Value

它们通常简写为:

Q, K, V

很多初学者第一次看到这三个名字会觉得很抽象。其实可以用“检索信息”的方式来理解。

3.1 用搜索来理解 Q、K、V

假设你在搜索引擎中输入一个问题:

Vision Transformer 是什么?

这个问题就类似于 Query。搜索引擎会拿你的问题和网页中的关键词、标题、内容进行匹配,这些被匹配的信息可以类比为 Key。最后,搜索引擎返回给你的具体网页内容,可以类比为 Value。所以可以简单理解为:

Query:我想找什么?
Key:我有什么特征可以被匹配?
Value:如果匹配上了,我能提供什么信息?

放到 Self-Attention 中,每个 token 都会生成自己的 Query、Key 和 Value。

http://www.jsqmd.com/news/826511/

相关文章:

  • 思源宋体TTF完全指南:7种字重免费解决中文排版难题
  • AI 智能体 “寒武纪”——OpenClaw 狂飙迭代,引领开源 Agent 商业化落地浪潮
  • 2026年山东大学软件学院创新项目实训博客(五)
  • 62-260515 AI 科技日报 (Qwen3.6 模型推理速度再提升,MTP加速至1.8倍)
  • 开源智能体框架xbrain:模块化设计与工程实践指南
  • 基于DB-GPT-Hub的文本到SQL微调实战:从原理到企业级部署
  • AI Agent Harness Engineering 的安全攻防:你的智能体如何被欺骗、劫持与利用
  • 指纹浏览器开发教程五:浏览器内存信息相关能力该怎么改
  • 基于MCP协议构建AI技能服务器:从原理到实战开发指南
  • SLO-Warden:基于错误预算的云原生服务稳定性自动化管理实践
  • 智能苔藓花园:用CircuitPython与NeoPixel打造会呼吸的天气可视化装置
  • Kaggle竞赛实战技能库:从数据预处理到模型集成的完整工程化实践
  • FAST开发方法在系统分析中四个阶段
  • Windows Cleaner:3步解决C盘爆红,快速释放系统空间的实用指南
  • 2026年公考软件大盘点:技术架构与用户体验深度评测
  • 04 AI 时代的岗位分工与协作机制
  • SpleeterGui终极指南:3步实现AI音乐人声分离的免费神器
  • 我们团队的技术债已经堆成山,我用这四步说服老板给时间重构
  • Swift集成飞书API:原生SDK实现iOS/macOS应用无缝协同
  • 使用git filter-repo删除已提交到git中的敏感信息,api key,配置文件等
  • 二分查找与二分答案模板
  • 【BUUCTF】【WEB】Nmap
  • AI时代PPT实战:产品思维与AI辅助的高效演示方法论
  • Maven依赖裁剪插件paperclip-plugin-acp实战:Spring Boot瘦身利器
  • 书成紫微动,律定凤凰驯:从无心创作到天命显化的海棠山铁哥之路
  • Go语言构建高并发实时流媒体服务器:dundas/liveport架构与实战
  • Ketcher分子编辑器实战指南:从基础绘图到高级生物分子设计
  • BilibiliDown:零基础小白也能轻松下载B站视频的完整指南
  • 西安电子科技大学网络对抗原理选修课实验2-基于Snort的入侵检测实验
  • 2026年评价高的洛阳流行舞蹈培训/洛阳舞蹈培训/洛阳零基础舞蹈培训/洛阳爵士舞培训哪家专业 - 行业平台推荐