当前位置: 首页 > news >正文

大模型推理引擎vLLM(14): 什么是MLA多头潜在注意力

文章目录

  • 1 视频1
  • 2 疑问和个人理解
    • 2.1 个人理解:什么是MLA
    • 2.2 疑问:位置信息是怎么优化的
  • 参考文献

abstract
MLA就是压缩KV减少显存占用
增加向量维度表示位置信息以支持矩阵乘法融合,

1 视频1

视频地址:DeepSeek-v2 MLA 原理讲解





多头潜在注意力怎么解决旋转位置编码的问题

解决方式就是给Q K向量额外增加一些维度来表示位置信息,



2 疑问和个人理解

2.1 个人理解:什么是MLA

我的理解,什么是MLA,MLA其实就是为了减少KV CACHE的空间占用,用一个矩阵乘以K V然后做了压缩,等后面计算注意力的时候再用一个矩阵乘以压缩后的得到正常的KV,所以所谓的MLA其实一句话总结就是压缩KV节省缓存,其实就跟一个大文件,我压缩包然后放到电脑中,等我真正要看这个文件,我再解压然后去看这个文件,这是一个意思,

2.2 疑问:位置信息是怎么优化的

然后他对位置信息还有个优化,就是之前位置信息是通过将Q K乘以一个旋转位置编码矩阵使Q K的向量中包含了位置信息,但是现在如果还是这么做,那么就没法使用矩阵乘法的融合从而减小 运算了,所以DeepSeek采用了另一个方法,就是现在位置信息我不是去乘以Q K 了,而是我通过一个将Q K 乘以一个矩阵然后再用旋转位置编码,然后接着我把得到的这个位置信息加到前面Q K 的维度上,通过增加维度信息来表示位置编码,这样数学推导上就又可以采用矩阵融合的方式了,那么 也就继续可以用矩阵乘法融合从而减小运算律,
其实我觉得他就是位置信息单独计算了,而不是跟之前一样直接乘到Q K上面,

参考文献

DeepSeek-v2 MLA 原理讲解

http://www.jsqmd.com/news/405831/

相关文章:

  • 2026.2.23:AgentScope框架实战<一>:安装并使用agentscope
  • 【节点】[Matrix2x2节点]原理解析与实际应用
  • JDK下载,安装与配置
  • flex与bison学习之识别计算器的记号
  • flex与bison学习之简易计算器
  • flex与bison学习之一个简单的flex词法分析器
  • 2026年谷歌独立站多语种建站公司/服务商深度评测推荐:五强对比与中立对比助决策 - 深圳昊客网络
  • OpenClaw:2026年爆红的本地优先 AI 智能体引擎全解析
  • CrafterCMS 认证RCE漏洞利用 - Groovy沙箱逃逸 (CVE-2025-6384)
  • flex与bison学习之英式英语转换为美式英语
  • sql注入之文件读写
  • 从入门到实战:构建企业级交通实时路况监控系统的Python爬虫架构指南
  • DenseFramelet-DFD:基于密集框架小波变换和自适应阈值降噪的机械故障诊断方法(MATLAB)
  • 探索导弹六自由度运动模型及其MATLAB/Simulink实现
  • 总结了近期考MOS认证学员问的比较的问题
  • 题解:CF1210F2 Marek and Matching (hard version)
  • CF1322B
  • 2026年3月百度推广竞价广告开户代运营公司/服务商深度评测:深圳昊客网络 引领榜单 - 深圳昊客网络
  • 根脉与花开:AI元人文——中华文化思想在智能时代的原创性理论发展
  • AI Agent 框架探秘:拆解 OpenHands(7)--- Agent
  • 视频孪生之上:镜像视界矩阵视频融合驱动三维智慧交通升级——以重庆万州复杂立体交通场景为样本的统一空间坐标体系与跨摄像连续表达工程实践
  • 视频孪生之上 · 空间主权构建:镜像视界矩阵视频融合打造三维连续表达控制体系——基于统一坐标矩阵与动态修正机制的空间级主动感知与连续表达平台
  • 状压dp临行枚举类问题
  • 新的开始
  • CF1313D
  • 【Linux】进程地址空间的内核空间
  • [特殊字符] 基于YOLOv5/v8/v10的商超货架商品陈列面占比分析系统【完整源码+数据集】
  • JAVA WEB学习6
  • 【YOLO目标检测】基于YOLOv5/v8/v10的交通拥堵检测系统:从数据集构建到可视化界面全解析
  • 基于深度学习的鸡数量统计系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)