当前位置: 首页 > news >正文

Transformer自注意力机制核心原理解析:Q/K/V与token相似度的关系

大家都知道Transfomer的自注意力核心是 “通过Q/K/V计算token间关联权重,融合全局上下文”。

那为什么计算多次Q*K的点积,就能得到得到token之间的相似度呢?WQ, Wk, Wv权重矩阵又是怎么来的?

在回答这个问题之前,再温习下Transformer自注意力机制的整体流程:

计算Attention的公式:

整体流程是这样的:

分词:

为了把文字变成模型能看懂的向量,Transformer首先会进行一个输入预处理,用分词工具譬如BPE(Byte Pair Encoding)将句子拆分为最小的语义单位TOKEN,是的,就是调用大模型按TOKEN收费的TOKEN。

Embedding:

每个TOKEN被编码为一个512维的词向量,也就是说一个向量用512个数表示,因为这些词向量是同时输入模型的,模型并不能判断出它们的先后顺序,所以,我们还需要给它们分别一个位置信息,以此来告诉模型这些词向量的先后顺序,这时我们就得到了一个形状为10*512的词向量组,这里就用x表示吧,那么模型又该如何通过x找到每个词之间的联系呢?当然是让这些词向量相互之间计算一下了。

注意力计算:

为了实现这一点,模型首先用三个权重矩阵WQ, Wk, Wv分别和每一个词向量相乘,进行线性变换得到维度不变的Q、K、V向量,其中Q(Query)为查询向量,它代表当前词想关注什么;K(Key)是键向量,它代表该词能为其它词提供什么信息或是关于什么的信息,你可以把k向量看做一个标签或索引;而V(Value)则是代表该词实际包含的信息内容,它是真正被检索和聚合的信息本身。 这里的w_q、w_k和w_v是可以通过训练过程学习的一组权重值。

当然,实际在计算机GPU中运算的时候,是通过拼接而成的大矩阵做乘法,得到的直接就是包含所有词向量的Q、K、V矩阵,并不是像我们刚刚那样,一步一步计算的。

假设第一个token得到的是Q1、K1、V1,第二个token得到的是Q2、K2、V2,依次类推。

接下来,我们让Q1和K2做点积,这表示在第一个词的视角里,第一个词和第二个词的相似度是多少。同理,依次和K3做点积,表示和第三个词的相似度,和K4做点积,表示和第四个词的相似度,…。最后再与自己做点积,表示和自己的相似度。

拿到这些相似度系数后,分别与V向量相乘。

为了让分数更合理, 我们将计算结果除以一个防止梯度爆炸的常数根号下DK就得到一组注意力分数, 然后再用Softmax函数进行归一化处理,就得到一组注意力权重。这组注意力权重代表着该词与其它每个词的关联程度,也就是相似度。

上面的看完了,再回到最初的问题:

问题1:为什么多次Q*K的点积,就能得到得到token之间的相似度呢?

是因为Tokernizer分词+Embedding+WQ, Wk, Wv打下了好的基础。

具体来说,向量语义编码的训练目标,从根源上强制让 “语义相似的文本” 对应 “方向相似的向量”。向量方向的相似性不是偶然,而是模型被刻意训练出来的 “特性”,后续的点积运算只是对这个特性的量化和利用。

向量点积能捕获真实语义的逻辑链是:

语义嵌入训练 → 语义相似的输入对应方向相近的向量 → 点积运算量化向量方向相似度 → 缩放保障高维下量化结果有效。

可以看到:不是点积运算 “创造” 了语义相似性,而是语义嵌入模型 “预设” 了语义相似性对应的向量方向特征,点积只是把这个预设的特征提取出来而已。

为什么点积可以把这个预设的特征提取出来?这是一个数学原理,如果两个高维向量越接近,它们的交乘数字就越可能更大,它们彼此之间对对方投入的「注意力」也就越大,在Attention这个地方就可以理解为两个Token越相关,语义越相似。

问题2:WQ, Wk, Wv权重矩阵如何获得?

不同的场景不同。

训练过程:WQ, Wk, Wv模型初始化时随机生成,作为模型参数。在训练中,通过反向传播和梯度下降算法,根据任务目标(如语言模型的下一个词预测)不断迭代优化,最终学习到能够有效计算注意力权重的投影方式。

推理过程:直接使用训练阶段学习并保存下来的、固定不变的WQ, Wk, Wv权重矩阵,对新的输入Token向量X进行线性变换以生成Q、K、V。

感兴趣的同学再来看看Attention机制在Transformer框架中的位置:

为什么AI大模型成为越来越多程序员转行就业、升职加薪的首选

很简单,这些岗位缺人且高薪

智联招聘的最新数据给出了最直观的印证:2025年2月,AI领域求职人数同比增幅突破200% ,远超其他行业平均水平;整个人工智能行业的求职增速达到33.4%,位居各行业榜首,其中人工智能工程师岗位的求职热度更是飙升69.6%。

AI产业的快速扩张,也让人才供需矛盾愈发突出。麦肯锡报告明确预测,到2030年中国AI专业人才需求将达600万人,人才缺口可能高达400万人,这一缺口不仅存在于核心技术领域,更蔓延至产业应用的各个环节。

那0基础普通人如何学习大模型 ?

深耕科技一线十二载,亲历技术浪潮变迁。我见证那些率先拥抱AI的同行,如何建立起效率与薪资的代际优势。如今,我将积累的大模型面试真题、独家资料、技术报告与实战路线系统整理,分享于此,为你扫清学习困惑,共赴AI时代新程。

我整理出这套 AI 大模型突围资料包【允许白嫖】:

  • ✅从入门到精通的全套视频教程

  • ✅AI大模型学习路线图(0基础到项目实战仅需90天)

  • ✅大模型书籍与技术文档PDF

  • ✅各大厂大模型面试题目详解

  • ✅640套AI大模型报告合集

  • ✅大模型入门实战训练

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

①从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

② AI大模型学习路线图(0基础到项目实战仅需90天)

全过程AI大模型学习路线

③学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

④各大厂大模型面试题目详解

⑤640套AI大模型报告合集

⑥大模型入门实战训练

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

http://www.jsqmd.com/news/361166/

相关文章:

  • 国防文档系统如何解决wangEditor粘贴Word图片模糊问题?
  • 2026年天津助听器专卖店推荐:权威评测与选型避坑全指南 - 十大品牌推荐
  • 传统转化困局破局之道——高校科研成果转化的生态协同机制探索
  • RouteRAG:小模型的自规划检索强化学习方案,性能媲美GPT-4o
  • 2026年广州助听器专卖店推荐:基于长期使用稳定性评价,涵盖老年与突发性耳聋场景 - 十大品牌推荐
  • 《解忧杂货铺》读书笔记——以善意赴山海,以温柔解迷茫
  • 2026年广州助听器专卖店终极评测(行业报告+用户口碑双重背书)| 听力解决方案选型避坑全指南 - 十大品牌推荐
  • 从此告别拖延!顶流之选的一键生成论文工具 —— 千笔·专业论文写作工具
  • 大模型智能体设计模式:21种核心模式详解,助你成为AI专家
  • 洛谷 P13915 [PO Final 2024] 鬼抓人 / Tag
  • 2026年长沙靠谱的资质办理公司,湖南真慧算资质办理流程与效果分析 - 工业设备
  • 科技成果转化的创新引擎:构建区域协同发展的新生态
  • 【收藏学习】向量数据湖赋能Context Engineering:RAG到Agent的技术演进
  • 科技成果转化的未来——智能顾问赋能全链条服务生态
  • 2026年速冻青豆供应商排名,靠谱之选别错过 - 工业品网
  • 助听器专卖店如何选?2026年深圳助听器专卖店推荐与评测,解决产品兼容性与专业服务核心痛点 - 十大品牌推荐
  • 视频汇聚平台EasyCVR如何构建“可视、可析、可管”的智慧环保天网 - 实践
  • 构建成果转化新生态,助力高校科研迈入智能时代
  • 2026年锅炉价格对比,远大锅炉创新能力和基本信息你知道多少? - myqiye
  • 2026年热门的观光小火车/景区观光小火车直销厂家价格参考怎么选 - 品牌宣传支持者
  • 构建高校院所科技成果转化的数智化桥梁
  • 3米打茬机好用的品牌有哪些,2026年度排名出炉 - myqiye
  • 盘点2026年人工智能学校性价比排名,德州地区哪家更值得选 - 工业品牌热点
  • 2026年质量好的包芯纸绳/拉菲草纸绳选哪家高口碑品牌参考 - 品牌宣传支持者
  • 细聊2026年济南成人高考靠谱的辅导站,推荐值得选择的机构 - mypinpai
  • 大模型实习模拟面试:多智能体系统评估体系深度解析——从Anthropic实践到AI工程化思维
  • 2026年办公室下午茶小包装零食推荐:Fixbody让你随时享受轻食之美 - Top品牌推荐
  • 实测对比后!千笔ai写作,领军级的AI论文网站
  • 我的3-2-1备份
  • 分析新东方南昌烹饪学校,价格、课程与教学质量解读 - mypinpai