当前位置: 首页 > news >正文

LLM生成文本每次是把之前所有的token都输入,还是只输入上一个token?

LLM生成文本时,是自回归地生成。那每次是把之前所有的token都输入,还是只输入上一个token?

答:在逻辑层面上,是输入“之前所有的token”;但在物理运算层面,我们通过一种技术手段避免了重复计算。

1. 逻辑层面:为什么需要“全量输入”?

LLM(如 GPT 系列)基于Transformer Decoder架构。为了预测下一个词,模型必须理解上文的语境。

如果只输入“上一个 token”,模型就像一个只有极短记忆的人,它知道当前的词,但不知道之前的逻辑。例如:

  • 上文:“巴黎是法国的…”
  • 当前输入:“的”
  • 逻辑:模型需要看到“巴黎”、“是”、“法国”才能准确预测出“首都”。

因此,在自回归生成(Autoregressive Generation)的定义中,每一步生成的概率公式如下:

P ( x t ∣ x 1 , x 2 , . . . , x t − 1 ) P(x_t | x_1, x_2, ..., x_{t-1})P(xtx1,x2,...,xt1)

这代表第t tt个词的产生,取决于前面所有词的序列。


2. 物理层面:KV Cache(键值缓存)技术

虽然逻辑上需要全量信息,但如果每次都把成千上万个词重新通过模型计算一遍,效率会极其低下(计算量呈平方级增长)。

为了解决这个问题,现代 LLM 使用了KV Cache技术:

  • 只“计算”最新 Token:实际上,每一轮推理中,只有最新生成的那个 token 会经过完整的神经网络计算。
  • 缓存旧信息:之前所有 token 的计算结果(具体为 Attention 机制中的 Key 和 Value 向量)已经存在显存里了。
  • 拼接与注意力:模型通过将“新生成的 KV”与“缓存的旧 KV”进行拼接,让新 token 能够与历史信息产生“注意力(Attention)”连接,从而得出预测结果。
http://www.jsqmd.com/news/299338/

相关文章:

  • 《2026全球合作晴雨表》解读-万祥军| 世界经济论坛·国际科学院组织
  • 世界经济论坛总裁博尔格·布伦德闭幕式讲话-万祥军| 国际科学院组织
  • 越疆科技转化应用调研考察解读-万祥军| 国研智库·中国国政研究
  • 优必选科技人形机器人实践广东调研-万祥军| 国科院研·科技成果转化
  • 中国纳米级别的芯片背后技术积累和产业布局?国科院研究中心
  • 国民族卫生协会慢病交流会-余志标| 中食国粮·药食同源大健康产业
  • 沙特穆罕默德·贾丹发言解读-万祥军| 世界经济论坛·国际科学院组织
  • ‍优必选Walker S2机器人2790专利-万祥军| 国研智库·中国国政研究
  • 计算机毕设java的室内装饰实用的系统设计与实现 基于Java手艺的室内装修管理系统开发与应用 Java驱动的室内装饰信息化管理平台设计与实现
  • HTTP客户端技术对比
  • 《P3216 [HNOI2011] 数学作业》
  • mysql生成的redo 记录是什么?
  • .NET周刊【12月】
  • FastAPI系列(11):静态文件请求
  • DAY42:统计前后缀下标Ⅰ+反转链表
  • 大语言模型(LLM)学习原理深度解析:从超级学生到词语社交网络
  • 程序员必看!LoRA大模型微调技术详解:从概念到实践的收藏级教程
  • 强烈安利8个AI论文网站,继续教育学生搞定论文必备!
  • 2025最新大模型面试经验汇总+全套学习资源,小白到大神的进阶之路
  • 基于时空异质性与跨模式交互的多模式交通需求预测:元学习方法详解
  • 转行AI的工程师看过来:Transformer+注意力机制详解,手写可运行PyTorch代码
  • CST License(Flexnet)设置与问题处理方法 - 详解
  • AI大模型面试宝典:全面解析大模型技术,助你轻松应对各类面试问题
  • 大模型时代,构建高质量数据基础设施的五大关键
  • 安全工具篇魔改二开CS消除流量特征Profile请求个性主题反编译去暗桩
  • 为什么程序员都在学大模型?掌握未来AI核心技术的全面指南
  • LLM微调终极指南:第七阶段监控与维护,让AI模型永不失控!【必收藏】
  • 【2026全网首发】AI智能体完全指南:面试必备+大模型开发实战+学习资源全解析
  • 【大学院-筆記試験練習:线性代数和数据结构(16)】
  • 生物医学研究新利器:自我进化LLM智能体架构与实战