当前位置：首页 > news >正文

DeepSeek V1

news 2026/7/23 4:39:39

论文标题：DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

https://arxiv.org/pdf/2401.02954

1.数据

2万亿文本用于预训练，1000万条用于SFT。

对数据进行处理，包含去重、过滤和重混。

去重和重混阶段通过对唯一实例进行采样,确保了数据的多样化表示。过滤阶段提高了信息密度,从而实现了更高效、更有效的模型训练。

采用字节级别字节对编码BBPE；拆数字，词元数量控制在10w，合并不同语言的符号字符。

2.架构

沿用llama2架构，具体：采用rmsNorm函数的pre-Norm结构；使用swiGLU作为前馈网络的激活函数；旋转嵌入；分组查询注意力 GQA代替多头注意力MHA。

DeepSeek LLM 使用标准差 0.006 进行初始化,并使用 AdamW 优化器 (Loshchilov and Hutter, 2017) 进行训练,超参数如下: β1 = 0.9, β2 = 0.95,以及权重_衰减 = 0.1。

在预训练阶段,采用了多步学习率调度器,而非典型的余弦调度器。

具体而言,模型的学习率在 2000 个预热步数后达到最大值, 随后在处理完 80% 的训练词元后降至最大值的 31.6%。在处理完 90% 的词元后,进一步降至最大值的 10%。训练阶段的梯度裁剪设置为 1.0

3.基础设施

使用了一个名为HAI-LLM的高效轻量级训练框架

混合并行策略：采用了数据并行（Data Parallelism）、张量并行（Tensor Parallelism）、序列并行（Sequence Parallelism）以及1F1B 流水线并行（1F1B Pipeline Parallelism）

显存优化：利用ZeRO-1技术在数据并行秩之间对优化器状态进行切分

算子融合：为了提速，框架融合了 LayerNorm、GEMM（通用矩阵乘法）以及 Adam 优化器更新等操作

4.缩放定律（Scaling Laws）的演变

传统：计算预算 C （预训练大语言模型时投入的总计算资源量）通常根据模型参数量（N）和训练数据量（D，即 token 数量）来估算，公式为：C≈6ND 这里将每个 token 的前向和后向传播开销近似为模型参数量的 6 倍。

传统的参数表示法（6ND）没有考虑到注意力操作（attention operation）的计算开销，在小规模模型中可能导致高达50% 的近似误差。

DeepSeek 引入了新的指标：C=MD。 D 代表数据集中的token 数量

批次大小逐渐增大：这意味着模型规模越大、训练数据越多时，需要更大的批次来保持训练效率和稳定性。

学习率逐渐减小：大模型训练通常需要更小且更谨慎的学习率，以防止训练崩溃并确保收敛

5.各类验证--安全验证

6.参考内容

1. llama2架构图 https://blog.csdn.net/CV_Autobot/article/details/137534667

https://zhuanlan.zhihu.com/p/677423544

2. 流水线：https://zhuanlan.zhihu.com/p/1922398748941723463

https://www.bilibili.com/video/BV1QToSY6EMm/?spm_id_from=333.337.search-card.all.click&vd_source=d822e911a2ea10d2b0720afa70f0c357

3. 各类并行：https://zhuanlan.zhihu.com/p/659792351

https://zhuanlan.zhihu.com/p/504957661

4.All-reduce: https://zhuanlan.zhihu.com/p/504957661

5.zero1,2,3:https://www.microsoft.com/en-us/research/blog/zero-deepspeed-new-system-optimizations-enable-training-models-with-over-100-billion-parameters/

https://www.cnblogs.com/gongzb/p/19087423

6. deepseek讲解：https://zhuanlan.zhihu.com/p/1901560244187960315

7. pre-Norm和post-Norm： pre-Norm和post-Norm： https://zhuanlan.zhihu.com/p/686188942

https://www.bilibili.com/video/BV1QbYhzzEZr/?spm_id_from=333.337.search-card.all.click&vd_source=d822e911a2ea10d2b0720afa70f0c357

8. GQA, MHA: gqa+ mha: https://zhuanlan.zhihu.com/p/686149289

查看全文

http://www.jsqmd.com/news/918523/

[智能体-128]：智能体，模型与工具的整合者

OpenAI GPT-5 Agent Mode 正式发布：最长24小时自主任务，AI编程智能体大战升级

城通网盘解析器：3分钟掌握免费高速下载的终极方案

TrafficMonitor插件完全指南：打造你的个性化桌面监控中心

OpencvSharp 算子学习教案之 - Cv2.CvtColor

MATLAB图论实战：除了shortestpath，自己写的Dijkstra函数如何优化与可视化？

基于知识图谱与专家系统的散热材料智能推荐技术

3PEAK思瑞浦 TP5551-TR SOT23-5 精密运放

OmenSuperHub：彻底释放惠普暗影精灵游戏本性能的终极解决方案

智能体协同下的数字孪生IOC：端流融合与场景编排的工程选型逻辑

双系统Ubuntu18.04升级22.04，安装docker进行openclaw安装

OpencvSharp 算子学习教案之 - Cv2.CvtColorTwoPlane

如何高效解密网易云音乐NCM文件：ncmdumpGUI完整技术解析与实战指南

避坑指南：在LabVIEW 2023中设计波形发生器UI时，如何优雅管理控件状态与数据流？

【电赛保姆级教程】别在比赛时从零写代码了！电赛“祖传代码库”搭建与OLED多级菜单硬核指南

用Java+SpringBoot给服务器告警邮件找个‘飞书管家’：保姆级配置教程（附避坑点）

Debian 11 Bullseye 新装后必做的 10 件事：从内核 5.10 到 LibreOffice 7.0 的实用调优

量子计算中的测量基优化与误差缓解技术

26年AI漫剧制作厂商排行榜多家深度格局解析 - 速递信息

河北君宏泵业：排污泵/循环泵/隔膜泵/消防泵/混流泵专业制造与多场景应用 - 品牌推荐官

调试记录 - 2024年1月15日

BioAge终极指南：5步掌握生物年龄计算与衰老评估的R语言工具包

bugkuctf-web-文件上传（kali操作）

Mac重装系统卡在“最后1秒”？别慌，这可能是APFS格式和安装时间预估的锅

新 E 选品牌源头厂家无溶剂 PU 烤火罩耐刮耐磨吗

2026年5月AI模型性能排行：代码能力Claude霸榜，智谱GLM杀入前十

实习19-HRM

告别排版焦虑：西安交大LaTeX论文模板让你专注学术创新

【电赛保姆级教程】别再用L298N了！电赛电机驱动与高阶控制（带FOC扫盲）硬核避坑指南