当前位置: 首页 > news >正文

LLM学习记录DAY12

📘今日学习总结

KV Cache

作用

  • 在 Transformer 模型中,KV Cache(Key-Value Cache,键值缓存) 指的是 自回归推理过程中缓存的 Key 和 Value,以避免重复计算。
  • 它主要用于 自注意力机制(Self-Attention),在 解码(Decoder) 过程中缓存之前计算过的 Key(键)和 Value(值),从而加速生成。
  • 在没有 KV Cache 的情况下,每次生成一个新的 token 时,模型都需要重新计算所有 token 的 Query(查询)、Key(键)、Value(值),导致计算冗余。
  • 使用 KV Cache 后,只需要计算新 token 的 Query,并与已缓存的 KV 进行注意力计算,大幅提高推理速度,计算复杂度从 O(N²) 降到 O(N),显著加速推理。

原理

  • 在标准 Transformer 自注意力(Self-Attention)中,每个 token 通过 QKV 机制 进行计算

\[Attention(Q, K, V) = \text{softmax}\left(\frac{QK^{T}}{\sqrt{d_{k}}}\right)V \]

  • 训练阶段,所有 token 可以并行计算 QK^T,但在 自回归推理(Auto-Regressive Decoding)时,每个 token 只能依赖前面已经生成的 token,这就是 KV Cache 需要优化的地方。

\[Attention(Q_n, [K_1, K_2,..., K_{n-1}], [V_1, V_2, ..., V_{n-1}]) \]

KV Cache 的挑战与未来优化

显存占用

  • KV Cache 需要存储所有已生成 token 的 Key 和 Value,对长序列推理时显存占用大,尤其是在多头注意力(Multi-Head Attention)中,每一层都需要缓存 K, V。
  • 解决方案:
    • Paged KV Cache:采用分块存储,减少 GPU 显存压力。
    • FlashAttention:优化 GPU 访问 KV Cache 的方式,降低显存消耗。

动态 KV Cache

  • 传统 KV Cache 需要线性存储 K, V,但在多轮对话、长文本生成中,需要删除无用缓存,避免显存爆炸。
  • 解决方案:
    • Sliding Window KV Cache:仅保留最近的 N 个 token 进行 KV 计算。
    • 精细化 KV 复用:减少长序列存储需求,提高缓存利用率。
http://www.jsqmd.com/news/22298/

相关文章:

  • MCP Gateway 综述与实战指南
  • 清晨的阳光刚染红天边,我就钻进了彩虹色的热气球吊篮
  • 深入解析:关于在博客页面添加live2d-widget的一些心得和踩过的坑
  • Android设备位置历史深度解析:本地存储与取证技术
  • 深入解析:Zark Lab 与 Walrus 合作,建立内容发现、可访问性与实用性的基础 AI 智能层
  • LLM安全新威胁:为什么几百个毒样本就能破坏整个模型
  • 软件技术基础第二次作业
  • 前后端分离毕设课题:基于React.js+Java+Springboot框架+Mysql数据库在线买菜商城专业的系统设计与实现
  • vue3 不同构建版本
  • 使用 Android NDK 获取 YUV420p摄像头原始数据
  • 2025 年 Python 数据分析全栈学习路线:从入门到精通的进阶指南 - 实践
  • 百度智能云一念智能创作优秀的平台
  • 高阳台一首
  • 【深度相机术语与概念】 - 详解
  • 文档扩展名.js .jsx .ts .tsx区别(JavaScript扩展名、React扩展名、TypeScript扩展名)
  • AI元人文:共识锚定的基石——语境主权
  • MySQL5.7安装及配置
  • uniapp打包安卓跟ios记录
  • Windows 11 家庭版关闭自动更新
  • ASP.NET Core Blazor简介和快速入门三(布局和路由)
  • 实用指南:functools 是 Python 的标准库模块
  • 碎碎念(0....)
  • 紫外分光光度计生产商推荐品牌:仪器厂家服务哪家最好
  • Elasticsearch 搭建(亲测) - 实践
  • 权威调研榜单:石英砂生产线厂家TOP3榜单好评深度解析
  • 2025年国产液相色谱仪厂家哪家强?国产仪器权威推荐
  • FSEventsParser脚本升级与macOS取证技术解析
  • 大学生摸鱼日记
  • React Native启动性能优化实战:Hermes + RAM Bundles + 懒加载 - 指南
  • redis食用方法