当前位置：首页 > news >正文

ScalingLaws-2022-Chinchilla-3：llama3中的Scaling Laws

news 2026/3/27 4:50:04

下面把Llama 3（arXiv:2407.21783）里所有“scaling law（尺度律）”相关的：常数、公式、推理流程、结论按论文原文顺序完整梳理出来（并标明出处）。我会用高中生能理解的数学方式写清楚“它在做什么、为什么这么做、最后得到什么”。

0. 论文里“scaling law”用来解决的两个问题

论文明确说他们做 scaling laws 主要为两件事：

给定预训练算力预算 ©，决定旗舰模型应当“多大”（模型规模/参数量）以及应当训练多少 tokens。
不只预测“下一个词的损失（loss）”，还要预测下游任务的准确率（例如 ARC Challenge）。为此他们用了“两段式”相关性拟合：先 (C\rightarrow) NLL，再 NLL (\rightarrow) Accuracy。

另外，论文还说他们用同样的 scaling law 方法来挑选预训练 data mix（数据配比）。

1) Scaling law 实验里出现的“常数/设定”（论文给出的固定数字）

这些是“做出 scaling law 曲线”所用的实验范围与训练配方参数（你问的“常数”里，这些都属于论文明确写死/给出的数值）。

1.1 训练算力与模型规模范围（实验数据来源范围）

http://www.jsqmd.com/news/330684/

相关文章：

I/O多路转接（复用）之poll

什么是Redis的大Key和热Key？你们的项目一般是怎么解决的？

前端性能优化进阶：利用Web Workers提升复杂计算效率

深入解析React Hooks：从useState到自定义Hook的实战指南

分布式系统设计模式：基于Apache Kafka实现事件驱动架构

在一本书上看到可爱的激活函数

C++设计模式--PIMPL

Redis高级应用：利用哨兵与集群模式构建高可用缓存系统

实用指南：计算机毕业设计springboot生物样本采集系统基于SpringBoot的生物标本信息管理平台 SpringBoot框架下的生物样品采集与存储系统

Kubernetes网络策略详解：如何保障微服务间的安全通信

深入解析React Hooks性能优化：避免常见陷阱提升应用流畅度

IO多路转接（复用）之select

基于springboot+vue的社区资源共享系统设计与实现

机器学习模型部署实战：使用Flask与Docker快速上线TensorFlow模型

基于springboot+vue技术的二手车交易管理系统的设计与实现

前端性能优化全攻略：从Webpack打包到浏览器渲染的20个技巧

基于WEB的汽车销售管理系统开题报告

2026儿童补钙牛奶推荐，实测最热门的10家儿童补钙牛奶品牌对比

基于web的火车票订票系统的设计与实现（开题报告）(1)

基于WEB的超市销售管理系统设计开题报告

Kubernetes服务网格Istio入门指南：实现微服务流量精细管控

机器学习模型部署全流程：从TensorFlow到TensorRT加速推理

基于Web的教学管理系统的设计与实现_开题报告

python importlib 动态加载代码到当前进程的应用执行原理分析与实际应用

【Linux 网络基础】WebSockets 强大的技术指南

Redis高级应用场景剖析：如何设计高可用缓存架构

Docker Sandbox 沙箱运行环境原理与应用开发实战

CC++链接数据库（MySQL）超级详细指南 - 教程

前端性能监控体系搭建：从Lighthouse到自定义指标采集

Codesforces 329B Biridian Forest 题解