当前位置: 首页 > news >正文

建立记忆(KV Cache)

大家有没有想过,当你和 ChatGPT、豆包、通义千问聊天时,输入问题后,模型不会一次性弹出完整回答,而是逐字逐句输出。这背后是大语言模型(LLM)推理生成内容的核心逻辑——推理全流程,核心分为两个截然不同的阶段:Prefill(预填充) 和 Decode(解码)。简单说,就是模型先“一口气读完、吃透你的问题”,再“逐字逐句写回答”。下面用通俗的语言,结合技术细节,把整个流程讲清楚。

一、生活化类比:把推理比作一场开卷考试

理解这两个阶段,先看一个好懂的比喻:

  • Prefill(预填充)= 通读材料+做笔记:拿到试卷(你的问题)和参考资料,快速通读全文,在草稿纸上记下要点、逻辑关联,全程费脑力,但不写任何答案
  • Decode(解码)= 逐题逐字写答案:看着草稿纸上的笔记,逐字书写答案,每写一个字都核对上下文,过程轻松,但只能一个字一个字写,没法跳步

这里的“草稿纸”,就是工程里关键的 KV Cache(键值缓存)——模型理解问题后的核心记忆,后续生成回答全靠它。

二、Prefill(预填充):一次性吃透你的问题

Prefill 是推理的第一步,也是决定“你多久能看到第一个字”的关键阶段,核心是一次性、并行处理你输入的整段问题,完成“理解+记笔记”。

2.1 它具体在做4件事

  1. 分词(Tokenization):把你的文字拆成模型能懂的最小语义单元(Token),比如中文里一个词、半个词都是1个Token,再转换成数字ID,相当于把人类语言翻译成模型的“数学语言”。
  2. 全序列并行计算:把整段输入一次性送入模型,通过自注意力机制,同时计算所有Token之间的上下文关联(比如理清“它”指代橘子还是桌子)。
  3. 建立记忆(KV Cache):把计算好的关键信息(Key和Value矩阵)存入显存,生成KV Cache——相当于把理解好的问题逻辑,记在“草稿纸”上。
  4. 产出第一个字:基于最后一个Token的隐状态,生成回答的第一个Token,完成Prefill闭环。

2.2 Prefill的4个核心特点

特征通俗说明
计算密集型 要做大规模矩阵乘法,输入越长计算量越大,GPU算力是瓶颈(长文本会陡增)
高度并行 整段问题的所有Token同时计算,速度快
显存峰值高 一次性给整段输入分配KV Cache,长文本会瞬间占用大量显存
决定首字延迟(TTFT) 你发完问题到看到第一个字的等待时间,完全由Prefill决定

一句话总结:Prefill 是模型“埋头苦读、吃透问题”的过程,读得越快,你看到首字就越早。

三、Decode(解码):自回归逐字写回答

Prefill生成第一个字后,模型立刻进入Decode阶段,核心是串行、逐字生成后续回答,全程依赖Prefill留下的KV Cache。

3.1 它具体在做循环操作

  1. 刚生成的1个Token(及位置编码偏移) 作为新输入;
  2. 读取Prefill缓存的KV Cache,以及之前Decode新增的缓存;
  3. 计算当前字与历史上下文的关联,不用重新算旧内容
  4. 采样生成下一个Token;
  5. 把新字的信息追加到KV Cache,更新“草稿纸”;
  6. 重复以上步骤,直到遇到结束符(EOS)、达到长度上限,或触发异常终止(显存不足、用户中断)。


https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420502749398
https://weibo.com/ttarticle/p/show?id=2309405300420569858161
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420569858161
https://weibo.com/ttarticle/p/show?id=2309405300420628316990
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420628316990
https://weibo.com/ttarticle/p/show?id=2309405300420691492877
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420691492877
https://weibo.com/ttarticle/p/show?id=2309405300420746019135
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420746019135
https://weibo.com/ttarticle/p/show?id=2309405300420808933608
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420808933608
https://weibo.com/ttarticle/p/show?id=2309405300420888363272
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420888363272
https://weibo.com/ttarticle/p/show?id=2309405300420955734096
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300420955734096
https://weibo.com/ttarticle/p/show?id=2309405300421018648665
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421018648665
https://weibo.com/ttarticle/p/show?id=2309405300421106467406
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421106467406
https://weibo.com/ttarticle/p/show?id=2309405300421165187783
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421165187783
https://weibo.com/ttarticle/p/show?id=2309405300421236752624
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421236752624
https://weibo.com/ttarticle/p/show?id=2309405300421391679548
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421391679548
https://weibo.com/ttarticle/p/show?id=2309405300421463244831
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421463244831
https://weibo.com/ttarticle/p/show?id=2309405300421521703060
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421521703060
https://weibo.com/ttarticle/p/show?id=2309405300421584879936
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421584879936
https://weibo.com/ttarticle/p/show?id=2309405300421643338611
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421643338611
https://weibo.com/ttarticle/p/show?id=2309405300421706253029
https://weibo.com/ttarticle/p/show?comment=1&id=2309405300421706253029

http://www.jsqmd.com/news/847748/

相关文章:

  • N4_02_词汇_正字法
  • N4_03_词汇_上下文定义表达式
  • 2026届最火的六大AI辅助论文网站实际效果
  • 企业AI基建选型指南:托管/半托管/自建架构下的FinOps成本管控策略
  • 从FM收音机到5G基站:拆解DDS技术如何悄悄改变我们的通信设备
  • 从引脚到协议:手把手调试SD卡(SPI/SD模式)与SDIO设备的实战指南
  • 2026年相亲平台解析与核心品牌场景适配指南 - 温茶叙旧
  • 跑步
  • 从Silver Fox新变种看2026年网络钓鱼的攻防进化
  • SystemVerilog约束调试指南:用VCS的+ntb_solver_debug选项精准定位随机化问题
  • Perplexity本地化查询实战:手把手教你用Ollama+Llama3构建离线知识库(含性能压测数据)
  • MySQL 单行函数笔记(流程控制、加密解密与信息函数)
  • 从零构建嵌入式Linux平板:基于全志H3与Qt5的实战指南
  • SAP PP实战解析:MPS(主生产计划)如何成为供需平衡的“定海神针”?
  • “Palanti本体论”:数据安全时代的一种应用范式
  • 前端开发从入门到精通:Vue3+TypeScript实战教程
  • 一场跨境直播的背后,到底藏着多少技术准备?
  • 提高题5-高频日期函数
  • 【无人机协同】联合优化无人机轨迹、发射功率与地面用户-MEC关联的多无人机多地面用户系统 附matlab代码✅
  • 2026 年环保设备工程厂家深度测评排行榜 TOP5 - 小艾信息发布
  • STM32串口转RS-485双机通信:硬件设计、软件驱动与调试全解析
  • NPM全局安装OpenAI Codex CLI的3步权限配置与环境适配指南
  • Perplexity AI招聘全流程拆解:从简历筛选到终面Offer,7个被90%候选人忽略的关键节点
  • Harness层服务熔断:防止级联故障
  • 转行对谈:转向AI是破茧成蝶还是折翼未来?
  • 创业公司如何设计有效的OKR
  • 使用 NextTrace 工具如何精准测试三网直连路由路径
  • Perplexity体验真相曝光:92%用户忽略的3个隐藏缺陷及2024最新优化方案
  • 构建TileLink验证IP:从协议检查到一致性验证的完整指南
  • 2026年轻人相亲平台分析报告:主流服务模式与用户适配指南 - 温茶叙旧