当前位置：首页 > news >正文

【AI大模型】近100页的LLaMA 3技术报告：模型结构及影响解析

news 2026/3/27 1:05:47

LLama 3 405B模型效果已经赶上目前最好的闭源模型比如GPT 4o和Claude 3.5，这算是开源届的大事，技术报告接近100页，信息很丰富，粗略看了一下，很有启发。这里就LLaMA 3的模型结构、训练过程做些解读，并对其影响、小模型如何做、合成数据等方面谈点看法。

一、LLaMA 3模型结构

LLaMA 3的模型结构如图1所示，这基本已经形成目前Dense LLM模型的标准结构了，绝大多数LLM模型结构都与此非常接近。而很多采取MOE结构的LLM模型，其变化无非是把上图的FFN模块里的单个SwiGLU**模块拓展成K个并联的SwiGLU模块，形成多个专家，再加上一个路由子网络来选择目前Token走这么多专家里的哪几个，如此而已，基本结构也差不太多（所以不要误会，MOE是Transformer的一种变体，不是独立的模型结构。很多目前的新型结构，其实是“线性Transformer”结构的变体，目前很少有结构能逃脱Transformer架构的影响，都处在它的阴影下。当然我对新结构持支持态度，Transformer被替换只是时间问题，只不过这不是当前制约大模型能力的瓶颈，改变的迫切性没那么大而已）

LLaMa 3模型结构

LLaMA 3的模型结构如上图所示，这基本已经形成目前Dense LLM模型的标准结构了，绝大多数LLM模型结构都与此非常接近。而很多采取MOE结构的LLM模型，其变化无非是把上图的FFN模块里的单个SwiGLU模块拓展成K个并联的SwiGLU模块，形成多个专家，再加上一个路由子网络来选择目前Token走这么多专家里的哪几个，如此而已，基本结构也差不太多（所以不要误会，MOE是Transformer的一种变体，不是独立的模型结构。很多目前的新型结构，其实是“线性Transformer”结构的变体，目前很少有结构能逃脱Transformer架构的影响，都处在它的阴影下。当然我对新结构持支持态度，Transformer被替换只是时间问题，只不过这不是当前制约大模型能力的瓶颈，改变的迫切性没那么大而已。）

之所以LLaMA结构基本快形成行业标准，我觉得有两个原因。原因一是侧面说明了Transformer结构趋于稳定，肯定很多人试过其它变体结构但是要么在效果，要么在可扩展性（Scalability），总之，某一点要比这个结构效果要差，这虽然是无依据的推导，但想来是大概率事件。

原因之二是因为目前LLM已形成生态，各种衍生的工具比如快速推理框架等都兼容这个结构，如果你新结构变动太大，很多流行工具不支持，就很难扩散影响力形成新的行业标准。新结构不仅仅要达成替换Transformer那么简单，你面对的是整个生态，再没有确切证据表明各方面都明显好于上述结构前提下，是很难替换掉Transformer的。从这里就看出Meta坚决走开源路线的高明之处了，早开源早形成影响力早成为行业标准，那么以后LLM的技术路线做技术选型话语权就非常大，其他人就比较被动。谷歌因为一心二用开源不坚决，有点错失时机。

二、LLaMA 3的预训练过程

Llama 3 预训练包括三个主要阶段：(1) 初始预训练，(2) 长上下文预训练，以及 (3) 退火（Annealing）。总体而言，和目前一些其它开源模型的训练过程差别不大，不过技术报告公开了很多技术细节。

2.1 初始预训练

就是常规的预训练阶段，训练初期使用较小Batch Size以稳定训练，随后逐步增大以提高效率，最终达到 16M token 的Batch大小。为了提升模型的多语言和数学推理能力，增加了非英语和数学数据的比例。

2.2 长上下文预训练

在预训练的后面阶段，采用长文本数据对长序列进行训练，支持最多128K token的上下文窗口。采取逐步增加上下文窗口长度策略，在Llama 3 405B的预训练中，从最初的8K上下文窗口开始，逐步增加上下文长度，最终达到128K上下文窗口。这个长上下文预训练阶段使用了大约800B训练token数据。

2.3 退火（annealing）

在预训练的最后4000万个token期间，线性地将学习率退火至0，同时保持上下文长度为128K个token。在这一退火阶段，调整了数据混合配比，以增加高质量数据比如数学、代码、逻辑内容的影响。最后，将若干退火期间模型Check Point的平均值，作为最终的预训练模型。在训练后期对高质量数据进行上采样目前其实也是比较标准的做法。

三、预训练阶段不同类型数据配比

不同类型的数据配比如何配置大模型才能有最好的效果？这可能是目前大模型预训练仅剩的唯一秘密了，LLama**报告对此做了披露，他们先通过小规模实验确定最优配比，然后将之应用到大模型的训练中。结论是：50%的通用知识Token；25%的数学与逻辑Token；17%的代码Token；8%的多语言Token。

四、LLaMA 3的Post-Training

LLaMA 3 Post-Training流程

目前LLM的Post-Training主要有两种模式，一种是仿照ChatGPT的SFT**+RM+PPO的模式，采用强化学习，需要调的超参很多，比较复杂不太好调通；另外一种是SFT+DPO的模式，去掉了PPO强化学习，相对简化了整个流程，比较容易跑起来。LLaMA 3在这个阶段主体结构是SFT+DPO的模式，不过也有自己特殊的一些设计，上图展示了LLaMA 3整个Post-Training的流程。

首先用人工标注数据训练RM模型，用来评价一个<Prompt,answer>数据的质量，然后用RM参与拒绝采样（Rejection Sampling），就是说对于一个人工Prompt，用模型生成若干个回答，RM给予质量打分，选择得分最高的保留作为SFT数据，其它抛掉。这样得到的SFT数据再加上专门增强代码、数学、逻辑能力的SFT数据一起，用来调整模型得到SFT模型。之后用人工标注数据来使用DPO模型调整LLM参数，DPO本质上是个二分类，就是从人工标注的<Prompt，Good Answer，Bad Answer>三元数据里学习，调整模型参数鼓励模型输出Good Answer，不输出Bad Answer。这算完成了一个迭代轮次的Post-Training。

上述过程会反复迭代几次，每次的流程相同，不同的地方在于拒绝采样阶段用来对给定Prompt产生回答的LLM模型，会从上一轮流程最后产生的若干不同DPO模型（不同超参等）里选择最好的那个在下一轮拒绝采样阶段给Prompt生成答案。很明显，随着迭代的增加DPO模型越来越好，所以拒绝采样里能选出的最佳答案质量越来越高，SFT模型就越好，如此形成正反馈循环。

可以看出，尽管RLHF** 和DPO两种模式都包含RM，但是用的地方不一样，RLHF是把RM打分用在PPO强化学习阶段，而LLaMA 3则用RM来筛选高质量SFT数据。而且因为拒绝采样的回答是由LLM产生的，可知这里大量采用了合成数据来训练SFT模型。

五、LLama 3 405B为何不用MOE结构？

MOE结构会让模型效果更好吗？答案是否定的。这个在很久以前ChatGPT火之前就有研究结论，从对模型效果的影响来说，MOE结构相对Dense模型本身并不会带来额外优势，甚至是有劣势的。MOE的主要优势是减少训练和推理成本，付出的代价是训练不够稳定以及推理时额外付出大内存来存储膨胀的参数量。但当用户量大请求多的时候，推理成本占比会更高，此时使用MOE对于推理会更友好，这是为何当模型大到一定程度模型结构就会从Dense转向MOE的主要原因，是出于成本、效率而非效果角度考虑。我之前看到有些介绍说MOE结构效果更好，这种观点是没有事实依据的。

Llama3 405B 之所以没有采用MOE，技术报告指出主要是考虑到Dense模型训练更稳定，所以选择了Dense结构。相比GPT 4的1.8T的MOE模型结构，405B的Dense模型效果与之相当甚至要更好一些（当然，不排除GTP 4目前已经是一个蒸馏小模型的可能）。

六、LLaMA 3模型带来的影响

开源模型效果快速追赶闭源模型

前几个月关于开源和闭源大模型谁优谁劣争吵的很厉害，不同立场者各执一词，上图展示了开源和闭源模型随着时间能力差异曲线，可以看出两者差距随着时间是逐步减小的，而LLaMA 3 405B让两线出现了交点，我想这图基本可以终结“开源闭源之争”了。

LLaMA 3 405B的开源，对于其它无论闭源还是开源模型，都有重大影响。对于闭源模型，如果其能力还赶不上LLaMA 3，就需要向公众解释对用户收费的依据问题（除了覆盖推理成本外的费用）。对于开源模型而言，如果能力不如LLaMA 3，就需要考虑如何作出差异化和不同特色的问题。目前看Meta继续开源比如LLaMA 4等后续更强模型的决心是比较大的（毕竟从大模型开源带来的股价上涨就能覆盖成本了，这买卖合算的），随着LLaMA 4的进一步开源，形势将逼迫很多原先定位为基础模型AGI的创业公司转向特色产品赛道。我觉得这其实是个负面作用，尤其是对开源界，即使是开源赛道也是百家争鸣比一两家独大要好，但是逐渐收敛看样子不可避免。

我觉得之后一方面要重视LLAMA和Gemma的中文化工作，让中文支持效果更好。如果这方面作出特点，完全可以实现小公司、小投入，但是拥有当前最强中文模型的能力，从能力角度看，并不弱于获得大量资金支持的专业大模型公司，而从投入角度则小的多，性价比很高。

另外一方面，在做小模型的时候，要注重用LLaMA 405B这种最强开源模型来蒸馏小模型的思路，这样做对小模型效果提升会非常明显，很明显这也是小投入高产出合算的买卖。

七、小模型崛起三要素

最近半年小模型在快速崛起，各种开源小模型此起彼伏，且效果也越来越好。小模型无论是训练成本、推理成本还是对于用户数据隐私保护，相比大模型都有独到的好处。唯一的问题是效果，只要Scaling law成立，就可以推断出小模型效果不会比超大规模模型效果好，否则就直接反证了Scaling law是不成立的。

所以小模型的关键点在于：在模型规模大小受限的情况下，如何通过其它技术手段来不断提升模型效果，最好的结局是小模型尺寸比最大模型小很多倍，但是效果逐步逼近最大模型的效果，两者差距越来越小。

这样美好的结局会出现么？目前看有极大可能会达成这一目标。从最近一年各种技术进展来说，我归纳下，不断提升小模型效果的三个关键因素：

第一个武器是预训练阶段增加训练数据数量和质量。要打破Optimal Chinchilla Law，在保证质量前提下加大数据数量，这个肯定是有效的。去年早些时候有些模型就比较实在，比如pythia和Llama 1，严格遵循这个法则，导致相同规模的模型效果远比不上那些大量增加数据的模型。后来大家都开始猛加数据，小模型的效果就越来越好。

第二个武器是模型蒸馏。从开源角度来看，这个武器相对较新，而且我判断用蒸馏来提升小模型效果的能力非常强大。所谓“蒸馏”，就是说在预训练阶段小模型作为Student，大模型作为Teacher，Teacher告诉Student更多信息来提升小模型效果。

原先小模型预训练目标是根据上文context信息正确预测Next Token，而蒸馏则改成Teacher把自己做相同上下文做Next Token预测的时候，把Token词典里每个Token的生成概率都输出来，形成Next Token的概率分布，这就是Teacher交给Student的额外附加信息，小模型从原先的预测Next Token改为预测Next Token的概率分布，要求和Teacher输出的分布尽量一致，这样就学到了Teacher的内部信息。

Gemma 2采用模型蒸馏对于小版本模型提升非常明显。Llama 3技术报告貌似没有看到采用这个技术，但是在宣传页里到处暗示你应该拿405B模型作为Teacher去蒸馏自己的小模型，无疑这会是很有效提升小模型能力的新武器。感觉其它模型在这里没有足够的重视，而之后这应该成为普及方案。而研究怎样的蒸馏方法是最好的会是一个重要研究领域。

第三个武器是Annealing Data。这个说法是Llama 3技术报告提的，但是其实去年很多模型应该已经这么做了，只是叫法不一样。核心思想就是在预训练的最后阶段，对高质量数据比如数学、逻辑、代码数据进行上采样，增加其影响。LLama 3技术报告说这招对405B模型不怎么起作用，但是对8B小模型在逻辑代码能力方面有明显提升。

根据现有资料分析，我推断模型蒸馏和Annealing Data很可能存在一种“反规模效应”，就是说小模型的参数规模越小，上这两个技术对其正面影响越大。（推断的，没明确证据，谨慎参考）所以在研发小模型时尤其注意要引入这两项改进，三个武器并用，我觉得作出接近最强大模型能力的小模型目前看是可行的。（其实还有一个重要因素，就是Post-Training阶段合成数据的影响，这个对几乎所有尺寸模型都成立，所以放在后面“驱动大模型效果提升三要素”分析了，对小模型也成立）

八、合成数据进入实用化阶段

在Post-Training阶段，合成数据目前已经产品化。尤其是其中的SFT阶段，目前看在朝着完全由合成数据主导的方向发展。比如LLama 3 的SFT数据里有相当比例是由模型生成的合成数据，而Gemma2 在SFT阶段的数据很大比例是由规模更大的模型合成的，且证明了合成数据质量不比人工标注质量差。
在预训练阶段，类似Dalle-3和Sora这种由语言大模型根据图片或视频改写人写好的文字描述，也已实用化。
目前合成数据的一个重点方向是在Post-Training阶段对数学、逻辑、代码等数据的合成，数据质量将直接极大影响模型最终效果。
严格来说，目前的所谓合成数据只是“半合成数据”，比如Sora的<视频，人写文字描述<视频，模型改写文字描述>，以及Post-Training阶段的<Prompt，人写答案><Prompt，模型生成答案>，都是部分人工数据、部分模型生成数据，所以称其为“半合成数据”感觉更为恰当。
如果深入思考一下，你会发现合成数据其实是模型蒸馏的一种变体，算是一种特殊的模型蒸馏。（LLM预训练预测Next Token，其实是人类作为Teacher，LLM作为student。所以LLM本身就是对人类知识的蒸馏。合成数据是更大的模型输出数据作为Teacher，小点的模型作为Student从中学习知识，所以其实本质上是一种模型蒸馏。）

九、驱动大模型效果提升的三要素

其实从ChatGPT火了以后看各种大模型的技术报告，包括LLama系列模型在内，可以看出大模型之所以能力仍在快速提升，主要驱动力有三个：

首先就是不断扩大模型和数据规模（Scaling Law**）。除此外，在数据方面有两个发展趋势：一个是越来越强调数据质量的作用，各种数据筛选方法和工具越来越多，保证质量是第一位的（这个早在Google T5时代就能推出这个结论，目前只是进一步验证并延续这个思路而已）。

第二个是不断增加数学、逻辑、代码这种能够提升大模型理性能力的数据配比比例，包括在预训练阶段（增加预训练数据此类数据比例，且在预训练后面阶段来上采样此类数据，就是说同样数据多执行几遍，以增加其对模型参数影响的权重）和Post-Training阶段（增加此类数据占比，Llama3的经过instruct的模型比仅做预训练模型相比，各种尺寸的效果提升都很大）皆是如此。

目前看，在通用数据快被用完情况下，第三个因素会成为之后大模型进步的主导力量，包括使用数学、逻辑、代码合成数据在Post-Training阶段的应用，目前技术也越来越成熟，其质量和数量会是决定未来大模型效果差异的最关键因素。

想入门 AI 大模型却找不到清晰方向？备考大厂 AI 岗还在四处搜集零散资料？别再浪费时间啦！2025 年AI 大模型全套学习资料已整理完毕，从学习路线到面试真题，从工具教程到行业报告，一站式覆盖你的所有需求，现在全部免费分享！

👇👇扫码免费领取全部内容👇👇

一、学习必备：100+本大模型电子书+26 份行业报告 + 600+ 套技术PPT，帮你看透 AI 趋势

想了解大模型的行业动态、商业落地案例？大模型电子书？这份资料帮你站在 “行业高度” 学 AI：

1. 100+本大模型方向电子书

2. 26 份行业研究报告：覆盖多领域实践与趋势

报告包含阿里、DeepSeek 等权威机构发布的核心内容，涵盖：

职业趋势：《AI + 职业趋势报告》《中国 AI 人才粮仓模型解析》；
商业落地：《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》；
领域细分：《AGI 在金融领域的应用报告》《AI GC 实践案例集》；
行业监测：《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。

3. 600+套技术大会 PPT：听行业大咖讲实战

PPT 整理自 2024-2025 年热门技术大会，包含百度、腾讯、字节等企业的一线实践：

安全方向：《端侧大模型的安全建设》《大模型驱动安全升级（腾讯代码安全实践）》；
产品与创新：《大模型产品如何创新与创收》《AI 时代的新范式：构建 AI 产品》；
多模态与 Agent：《Step-Video 开源模型（视频生成进展）》《Agentic RAG 的现在与未来》；
工程落地：《从原型到生产：AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。

二、求职必看：大厂 AI 岗面试 “弹药库”，300 + 真题 + 107 道面经直接抱走

想冲字节、腾讯、阿里、蔚来等大厂 AI 岗？这份面试资料帮你提前 “押题”，拒绝临场慌！

1. 107 道大厂面经：覆盖 Prompt、RAG、大模型应用工程师等热门岗位

面经整理自 2021-2025 年真实面试场景，包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题，每道题都附带思路解析：

2. 102 道 AI 大模型真题：直击大模型核心考点

针对大模型专属考题，从概念到实践全面覆盖，帮你理清底层逻辑：

3. 97 道 LLMs 真题：聚焦大型语言模型高频问题

专门拆解 LLMs 的核心痛点与解决方案，比如让很多人头疼的 “复读机问题”：

三、路线必明： AI 大模型学习路线图，1 张图理清核心内容

刚接触 AI 大模型，不知道该从哪学起？这份「AI大模型学习路线图」直接帮你划重点，不用再盲目摸索！

路线图涵盖 5 大核心板块，从基础到进阶层层递进：一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

四、资料领取：全套内容免费抱走，学 AI 不用再找第二份

不管你是 0 基础想入门 AI 大模型，还是有基础想冲刺大厂、了解行业趋势，这份资料都能满足你！
现在只需按照提示操作，就能免费领取：

👇👇扫码免费领取全部内容👇👇

2025 年想抓住 AI 大模型的风口？别犹豫，这份免费资料就是你的 “起跑线”！

http://www.jsqmd.com/news/128466/

相关文章：

【Open-AutoGLM模型使用全指南】：掌握高效AI建模的5大核心技巧

破茧成蝶：软件测试工程师的专业成长路径与心法‌

类脑智能技术与系统——脉冲神经网络（下）

职业资格考试备考助手——利用anything-llm整合教材与真题

敲敲云免费零代码平台，应用如何分组

H3C路由策略配置方法及命令

腾讯云与阿里云知识图谱的实体链接准确率对比？

如何加强对客户选择华为云国际站代理商CloudDC专区的保障？

如何微调任何Embedding模型？适配器微调让通用模型秒变领域专家

留学生免税车代理机构如何选择？2025年年终权威评测与最终推荐！ - 品牌推荐

多电商平台数据采集核心设计与接入方案||电商API接口

【智谱AI Open-AutoGLM深度解析】：揭秘国产大模型自动化黑科技背后的5大核心技术

腾讯云知识图谱实体链接的准确率如何评估？

Java String API完全指南：从入门到实战

华为云国际站代理商的ESW主要有什么作用呢？

2025年12月天然气压缩机，蚌埠天然气压缩机，安徽天然气压缩机厂家推荐，高性能与稳定压缩兼具的优质品牌 - 品牌鉴赏师

Open-AutoGLM启动失败？这7个高频错误码你必须掌握，否则延误上线

2025年年终留学生免税车代理机构推荐：独家品牌资源与全国服务网络实力对比榜单。 - 品牌推荐

别再碎片化学 AI Agent ！这篇全栈架构指南，从底层到基座讲透落地逻辑

【Win系统部署Open-AutoGLM全攻略】：手把手教你5步完成本地大模型部署

2025年江西钢结构公司实力排名：江西正驰钢结构有实力吗？施工质量与口碑全解析 - 工业品牌热点

Python ezdxf终极指南：解锁CAD自动化的强大工具

2025年即时通讯软件排行：4款加密的即时通讯软件推荐，保护中小企业通讯安全

anything-llm能否用于诗歌创作？文学生成效果评估

二极管中点钳位型三电平整流器（NPC型整流器）的MATLAB/Simulink仿真：电压电流双...

2025年可信的淘宝代运营联系电话TOP5推荐：服务好的淘宝代运营企业权威榜单 - myqiye

2025无锡奢侈品回收权威推荐榜：专业鉴定与高价值变现首选 - 品牌企业推荐师（官方）

如何在2小时内完成Open-AutoGLM部署？一线工程师的高效实践分享

WorkshopDL：如何快速下载Steam创意工坊模组？完整指南来了！

2025年合肥靠谱办公家具定制公司排行榜，精选办公家具公司推荐 - 工业推荐榜