当前位置: 首页 > news >正文

DeepSeek V1

论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

https://arxiv.org/pdf/2401.02954


1.数据

2万亿文本用于预训练,1000万条用于SFT。

对数据进行处理,包含去重、过滤和重混。

去重和重混阶段通过对唯一实 例进行采样,确保了数据的多样化表示。过滤阶段提高了信息密度,从而实现了更高效、更有 效的模型训练。

采用字节级别字节对编码BBPE;拆数字,词元数量控制在10w,合并不同语言的符号字符。


2.架构

沿用llama2架构,具体:采用rmsNorm函数的pre-Norm结构;使用swiGLU作为前馈网络的激活函数;旋转嵌入;分组查询注意力 GQA代替多头注意力MHA。

DeepSeek LLM 使用标准差 0.006 进行初始化,并使用 AdamW 优化器 (Loshchilov and Hutter, 2017) 进行训练,超参数如下: β1 = 0.9, β2 = 0.95,以及权重_衰减 = 0.1。

在预训练阶段,采用了多步学习率调度器,而非典型的余弦调度器。

具体而言,模型的学习率在 2000 个预热步数后达到最大值, 随后在处理完 80% 的训练词元后降至最大值的 31.6%。 在处理完 90% 的词元后,进一步降至最大值的 10%。训练阶段的梯度裁剪设置为 1.0


3.基础设施

使用了一个名为HAI-LLM的高效轻量级训练框架

混合并行策略:采用了数据并行(Data Parallelism)、张量并行(Tensor Parallelism)、序列并行(Sequence Parallelism)以及1F1B 流水线并行(1F1B Pipeline Parallelism)

显存优化:利用ZeRO-1技术在数据并行秩之间对优化器状态进行切分

算子融合:为了提速,框架融合了 LayerNorm、GEMM(通用矩阵乘法)以及 Adam 优化器更新等操作


4.缩放定律(Scaling Laws)的演变

传统:计算预算 C (预训练大语言模型时投入的总计算资源量)通常根据模型参数量(N)和训练数据量(D,即 token 数量)来估算,公式为:C≈6ND 这里将每个 token 的前向和后向传播开销近似为模型参数量的 6 倍。

传统的参数表示法(6ND)没有考虑到注意力操作(attention operation)的计算开销,在小规模模型中可能导致高达50% 的近似误差。

DeepSeek 引入了新的指标:C=MD。 D 代表数据集中的token 数量

批次大小逐渐增大:这意味着模型规模越大、训练数据越多时,需要更大的批次来保持训练效率和稳定性。

学习率逐渐减小:大模型训练通常需要更小且更谨慎的学习率,以防止训练崩溃并确保收敛


5.各类验证--安全验证


6.参考内容

1. llama2架构图 https://blog.csdn.net/CV_Autobot/article/details/137534667

​​​​​​https://zhuanlan.zhihu.com/p/677423544

2. 流水线:https://zhuanlan.zhihu.com/p/1922398748941723463

https://www.bilibili.com/video/BV1QToSY6EMm/?spm_id_from=333.337.search-card.all.click&vd_source=d822e911a2ea10d2b0720afa70f0c357

3. 各类并行:https://zhuanlan.zhihu.com/p/659792351

https://zhuanlan.zhihu.com/p/504957661

4.All-reduce: https://zhuanlan.zhihu.com/p/504957661

5.zero1,2,3:https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/

https://www.cnblogs.com/gongzb/p/19087423

6. deepseek讲解:https://zhuanlan.zhihu.com/p/1901560244187960315

7. pre-Norm和post-Norm: pre-Norm和post-Norm: https://zhuanlan.zhihu.com/p/686188942

https://www.bilibili.com/video/BV1QbYhzzEZr/?spm_id_from=333.337.search-card.all.click&vd_source=d822e911a2ea10d2b0720afa70f0c357

8. GQA, MHA: gqa+ mha: https://zhuanlan.zhihu.com/p/686149289

http://www.jsqmd.com/news/918523/

相关文章:

  • [智能体-128]:智能体,模型与工具的整合者
  • OpenAI GPT-5 Agent Mode 正式发布:最长24小时自主任务,AI编程智能体大战升级
  • 城通网盘解析器:3分钟掌握免费高速下载的终极方案
  • TrafficMonitor插件完全指南:打造你的个性化桌面监控中心
  • OpencvSharp 算子学习教案之 - Cv2.CvtColor
  • MATLAB图论实战:除了shortestpath,自己写的Dijkstra函数如何优化与可视化?
  • 基于知识图谱与专家系统的散热材料智能推荐技术
  • 3PEAK思瑞浦 TP5551-TR SOT23-5 精密运放
  • OmenSuperHub:彻底释放惠普暗影精灵游戏本性能的终极解决方案
  • 智能体协同下的数字孪生IOC:端流融合与场景编排的工程选型逻辑
  • 双系统Ubuntu18.04升级22.04,安装docker进行openclaw安装
  • OpencvSharp 算子学习教案之 - Cv2.CvtColorTwoPlane
  • 如何高效解密网易云音乐NCM文件:ncmdumpGUI完整技术解析与实战指南
  • 避坑指南:在LabVIEW 2023中设计波形发生器UI时,如何优雅管理控件状态与数据流?
  • 【电赛保姆级教程】别在比赛时从零写代码了!电赛“祖传代码库”搭建与OLED多级菜单硬核指南
  • 用Java+SpringBoot给服务器告警邮件找个‘飞书管家’:保姆级配置教程(附避坑点)
  • Debian 11 Bullseye 新装后必做的 10 件事:从内核 5.10 到 LibreOffice 7.0 的实用调优
  • 量子计算中的测量基优化与误差缓解技术
  • 26年AI漫剧制作厂商排行榜多家深度格局解析 - 速递信息
  • 河北君宏泵业:排污泵/循环泵/隔膜泵/消防泵/混流泵专业制造与多场景应用 - 品牌推荐官
  • 调试记录 - 2024年1月15日
  • BioAge终极指南:5步掌握生物年龄计算与衰老评估的R语言工具包
  • bugkuctf-web-文件上传(kali操作)
  • Mac重装系统卡在“最后1秒”?别慌,这可能是APFS格式和安装时间预估的锅
  • 新 E 选品牌源头厂家无溶剂 PU 烤火罩耐刮耐磨吗
  • 2026年5月AI模型性能排行:代码能力Claude霸榜,智谱GLM杀入前十
  • 实习19-HRM
  • 告别排版焦虑:西安交大LaTeX论文模板让你专注学术创新
  • 【电赛保姆级教程】别再用L298N了!电赛电机驱动与高阶控制(带FOC扫盲)硬核避坑指南
  • LabVIEW与外部设备通信秘籍:用DLL传递复杂结构体(含数组/嵌套结构)的完整配置流程