当前位置: 首页 > news >正文

面试-Decoder-Only生成模型

1 背景

Decoder-Only 模型(如 GPT 系列、Llama)的工作原理是“根据上下文预测下一个字” 。这种 “递归”的特性导致了必须将推理过程拆分为两个截然不同的阶段。

  • 输入:整个历史序列。

  • 输出:下一个 Token。

  • 循环:预测出的 Token 会被拼接到输入中,作为下一次计算的输入。

Q1 为什么会分为两个截然不同的阶段?
维度Prefill 阶段 (预填充)Decode 阶段 (解码)
任务目标处理用户输入的 Prompt(提示词)。逐个生成新的 Token。
计算特征并行计算。一次性把用户输入的 N 个词全部喂给模型。串行计算。一次只处理一个词,算完才能算下一个。
计算强度计算密集型 (Compute-bound)。矩阵维度大,GPU 算力被充分利用。访存密集型 (Memory-bound)。矩阵维度极小(向量),大部分时间花在从显存搬运权重上。
核心瓶颈GPU 的峰值算力(TFLOPS)。显存带宽 (Memory Bandwidth)。
关键指标TTFT(Time to First Token,首字延迟)。TPOT(Time Per Output Token,单字生成速度)。

看图 1 中 Iter 2 和 Iter 3 的虚线框,你会发现它们只处理新生成的词。为什么不需要重新计算之前的“I think this”?

  • 背景:在 Attention 计算中,每一个词都需要和之

http://www.jsqmd.com/news/298913/

相关文章:

  • 【毕业设计】基于springboot的人脸识别员工考勤管理系统(源码+文档+远程调试,全bao定制等)
  • 亲测好用!继续教育TOP8一键生成论文工具测评
  • 改变人生的方式
  • FastAPI系列(07):请求体数据
  • 别只盯着那只“鹦鹉”了!Claude3.7与Sora2才是真正的生产力怪兽
  • 2026链条直销厂家榜:获取优质厂家联系方式,链条/非标链条/不锈钢链条/工业链条,链条源头厂家推荐排行
  • Agent Skill:新一代 AI 设计模式的原理、实践与 MCP 协同应用解析
  • Git行尾符战争:如何彻底解决CRLF与LF的跨平台噩梦
  • hot100 230.二叉搜索树中第K小的元素
  • hot100 199.二叉树的右视图
  • hot100 108.将有序数组转换为二叉搜索树
  • hot100 98.验证二叉搜索树
  • 做久坐提醒+拉伸指导工具,设定工作时长,久坐超一小时自动提醒,推送三分钟简易拉伸动作(图文步骤),记录每日拉伸次数。
  • Java毕设项目:基于springboot的社区健康管理系统(源码+文档,讲解、调试运行,定制等)
  • Java计算机毕设之基于springboot的社区健康管理系统基于SpringBoot的社区医疗健康管理系统(完整前后端代码+说明文档+LW,调试定制等)
  • markdown博客发布多平台实战指南
  • 2025精选浙江干式打磨台靠谱厂家推荐,水帘除尘器/湿式打磨台/喷淋塔除尘器/活性炭吸附干式打磨台制造厂家怎么选择
  • 抖音直播卖货起号-汽水账号自然流提高了
  • 【毕业设计】基于springboot的社区健康管理系统(源码+文档+远程调试,全bao定制等)
  • 【课程设计/毕业设计】基于springboot的社区康养管理系统基于springboot的社区健康管理系统【附源码、数据库、万字文档】
  • SpringBoot快速上手,一周速通!
  • 从代码案例出发,从0到1详解Spring Boot!
  • 真正的高手,都是贝叶斯主义者
  • 中国软件最大的短板,就藏在那个最窝囊的部门
  • 实用指南:ICT运维面试问那些问题
  • 实用指南:战略合作 | 深信科创携手北极雄芯、灵猴机器人共推国产智能机器人规模化落地
  • windows系统如何查看端口被占用、杀进程
  • 【简单小项目】从零用C语言实现贪吃蛇
  • Java反序列化CommonsCollections篇CC1
  • 详细介绍:用 Flink CDC 将 MySQL 实时同步到 StarRocks