当前位置: 首页 > news >正文

十分钟读懂 Deepseek MTP(Multi-Token Prediction)

传统的大语言模型采用的训练目标是 Next-Token Prediction (NTP),即在位置 t 上预测下一个 token (t+1)。
而 Multi-Token Prediction (MTP) 的核心思想在于:

  • 不仅预测下一个 token,而是能够同时预测多个未来的 token。
  • 这种方式可以显著提升推理效率。例如,当 n=4(一次预测 4 个 token)时,推理速度可实现约 3 倍的加速。

DeepSeek-V3 借鉴了 Meta FAIR 团队论文 Better & Faster Large Language Models via Multi-token Prediction 中的思路,但在实现上有明显不同:它并不是直接并行预测多个 token,而是保持完整的因果链,以逐层递进的方式预测未来 token。

本文将重点介绍 DeepSeek-V3 中 MTP 的实现。在此之前,我们先回顾一下 Meta FAIR 团队提出的 MTP 思路。

1. MTP 方法

1.1 NTP (Next-token Prediction)

  • 传统语言模型的训练目标:给定历史上下文 $x_{1:t}$,预测下一个 token $x_{t+1}$。
  • 损失函数是标准的交叉熵:$$ L_1 = -\sum_t \log P_\theta(x_{t+1} | x_{1:t}) $$
  • 这种方式虽然简单有效,但只考虑一步预测,容易陷入局部模式学习。

下图是 NTP 示意图,我们以 Qwen2.5-32B 为例,词表大小为 152064,hidden size 为 $d_{model}$=5120 ,num heads 为 40,Transformer block 的层数为 64,假设输入序列长度为 2048。

http://www.jsqmd.com/news/30027/

相关文章:

  • 2025年度中国工业制冷设备品牌排名:东洋制冷机靠不靠谱
  • dayday!!
  • 2025年山东外贸网站开发服务商权威推荐:本地网站建设/出海网站建设/科技网站建设服务商精选
  • 2025年油雾净化设备制造商:中国五大精密油雾净化设备靠谱供应商权威测评与深度解析
  • 2025年防盗盖封口机厂商权威推荐:铝盖旋盖机/压盖机/锁盖机源头厂家精选
  • 2025年冷鲜肉切片机制造企业权威推荐榜单:牛肉切片机/连续式鲜肉切片机/鲜肉切片机源头厂家精选
  • 适合高中数学辅导的培训机构怎么选?从基础到拔高这样挑不踩坑
  • pcb入门
  • 6.AUserDefaults 使用指南
  • S-PSC 5202 游记
  • 【科普】数据基础设施“三统一”是什么?
  • 2025年11月全屋定制品牌推荐评价:消费者满意度调查结果
  • 2025年11月全屋定制品牌推荐榜单:十大品牌综合对比与权威评测
  • Smartproxy提取指南——JSON-first 架构与参数化最佳实践 - Smart
  • 2025年11月远程控制软件评价排行:基于多维度数据对比
  • [PaperReading] GME: Improving Universal Multimodal Retrieval by Multimodal LLMs
  • 2025年10月深圳律师推荐榜:五家刑事辩护团队对比与中立评测
  • 2025年11月法律咨询律所推荐排名:用户需求匹配度全解析
  • 吴恩达深度学习课程二: 改善深层神经网络 第一周:深度学习的实践(五)归一化
  • 2025年11月市场地位认证机构排行解析:专业认证服务深度评测
  • 2025年10月深圳刑事律师推荐排行:五家真实团队的可验证指标全解析
  • 2025年项目管理软件排行榜前五!从需求到交付你怎么选? - RAIN
  • 2025年11月市场地位认证机构排名榜:服务维度与行业口碑全面解析
  • 2025年11月办公家具公司排名榜单:从资质到服务的全面解析
  • 学习一下压测和监控
  • 2025年11月办公家具公司推荐榜单:权威评测与综合对比分析
  • Spring IOC 容器和依赖注入(DI)
  • CSP-S 2025 赛时总结
  • MATLAB2025b安装教程
  • 2025年11月领先品牌认证机构排行榜:权威评测与选择指南