当前位置: 首页 > news >正文

minimind系统学习教程 - 基础组件02:位置编码(Position encoding)

🤔 1. 为什么(Why)

问题场景:Attention 的排列不变性

问题:Self-Attention机制本身是排列不变的(permutation invariant)

例子:

句子1: “我 喜欢 你” → {我, 喜欢, 你}
句子2: “你 喜欢 我” → {你, 喜欢, 我}

如果没有位置编码,Attention计算时:

  • 两个句子包含相同的词(集合相同)
  • Attention权重完全相同
  • 无法区分顺序!

但显然,两个句子意思完全不同!

直觉理解:给词"打标签"

🏷️ 类比:位置编码就像给每个词贴上"座位号"

没有座位号:

  • 老师点名:“张三、李四、王五”
  • 学生随便坐
  • 每天座位都不一样,无法记住位置关系

有座位号:

  • 张三 → 座位1
  • 李四 → 座位2
  • 王五 → 座位3
  • 位置关系固定,容易记忆
位置编码的演进
http://www.jsqmd.com/news/1075329/

相关文章:

  • 【Agent Harness】Gliding Horse 的Token经济学:用 IRI 指针替代文本,让 Token 花在刀刃上
  • 工程师视角的AI技术简报:如何将Newsletter转化为可执行知识
  • ROS节点命名机制深度解析:全名、命名空间与重映射原理
  • 从HDMI规范看HDMI接口电路设计
  • C#之.Net互操作-平台调用(P_Invoke)
  • FanControl完整指南:如何免费掌控Windows电脑风扇,告别噪音烦恼
  • 你AI的 localhost:3000,可以立刻在网上访问了!
  • 小红书、抖音、支付宝都能碰一碰分享,鸿蒙7的社交新玩法
  • 波普尔病毒:人工智能大模型的系统性认知癌症——论证伪主义在AI系统中的程序化扩散与文明危害
  • Sherlock.js:让自然语言变身日程助手,3分钟解锁智能事件解析
  • DDD-030:DDD 落地常见问题与避坑指南
  • 【C语言】c语言基础知识梳理(超全)
  • LSTM股票收益率预测实战:从数据清洗到模型部署
  • TVA在物流分拣领域的独特价值(7)
  • 用数据说话!2026年最流行AI论文软件榜单,免费款也能高效产初稿
  • Canonical Livepatch 正式拥抱 Arm64:ARM 服务器终于也能零停机打内核补丁了
  • 从AI用户到建造者:2025年可落地的AI系统工程实践指南
  • Poly Haven Assets:Blender中获取免费3D资源库的终极指南
  • Geoserver表达式注入漏洞CVE-2024-36401:从原理到复现与防御
  • 终极Windows老游戏兼容解决方案:5分钟让经典游戏在Win10/11上完美运行
  • Sketch Measure:告别设计标注痛苦,让协作变得轻松有趣
  • 可以边录边编辑的音乐平台,多款录音修音一体化工具实操分享
  • 网站建设如何适配本地流量?GEO 推广导向型建站逻辑详解
  • AI录音后期处理软件:录歌、修音、剪辑导出一体化工具梳理
  • 为什么创作者要关心 CLI
  • EXTI+定时器消抖:按键中断的正确姿势
  • 终极指南:如何用Blender插件实现Unreal PSK/PSA文件导入导出
  • 三步掌握BilibiliDown:你的B站视频离线宝库
  • Ryujinx:终极Nintendo Switch模拟器完整指南与快速上手教程
  • Hadoop 序列化与 HDFS 连接:从入门到踩坑全记录