当前位置: 首页 > news >正文

ScalingLaws-2022-Chinchilla-3:llama3中的Scaling Laws

下面把Llama 3(arXiv:2407.21783)里所有“scaling law(尺度律)”相关的:常数、公式、推理流程、结论按论文原文顺序完整梳理出来(并标明出处)。我会用高中生能理解的数学方式写清楚“它在做什么、为什么这么做、最后得到什么”。


0. 论文里“scaling law”用来解决的两个问题

论文明确说他们做 scaling laws 主要为两件事:

  1. 给定预训练算力预算 ©,决定旗舰模型应当“多大”(模型规模/参数量)以及应当训练多少 tokens。
  2. 不只预测“下一个词的损失(loss)”,还要预测下游任务的准确率(例如 ARC Challenge)。为此他们用了“两段式”相关性拟合:先 (C\rightarrow) NLL,再 NLL (\rightarrow) Accuracy。

另外,论文还说他们用同样的 scaling law 方法来挑选预训练 data mix(数据配比)


1) Scaling law 实验里出现的“常数/设定”(论文给出的固定数字)

这些是“做出 scaling law 曲线”所用的实验范围与训练配方参数(你问的“常数”里,这些都属于论文明确写死/给出的数值)。

1.1 训练算力与模型规模范围(实验数据来源范围)

http://www.jsqmd.com/news/330684/

相关文章:

  • I/O多路转接(复用)之poll
  • 什么是Redis的大Key和热Key?你们的项目一般是怎么解决的?
  • 前端性能优化进阶:利用Web Workers提升复杂计算效率
  • 深入解析React Hooks:从useState到自定义Hook的实战指南
  • 分布式系统设计模式:基于Apache Kafka实现事件驱动架构
  • 在一本书上看到可爱的激活函数
  • C++设计模式--PIMPL
  • Redis高级应用:利用哨兵与集群模式构建高可用缓存系统
  • 实用指南:计算机毕业设计springboot生物样本采集系统 基于SpringBoot的生物标本信息管理平台 SpringBoot框架下的生物样品采集与存储系统
  • Kubernetes网络策略详解:如何保障微服务间的安全通信
  • 深入解析React Hooks性能优化:避免常见陷阱提升应用流畅度
  • IO多路转接(复用)之select
  • 基于springboot+vue的社区资源共享系统设计与实现
  • 机器学习模型部署实战:使用Flask与Docker快速上线TensorFlow模型
  • 基于springboot+vue技术的二手车交易管理系统的设计与实现
  • 前端性能优化全攻略:从Webpack打包到浏览器渲染的20个技巧
  • 基于WEB的汽车销售管理系统 开题报告
  • 2026儿童补钙牛奶推荐,实测最热门的10家儿童补钙牛奶品牌对比
  • 基于web的火车票订票系统的设计与实现(开题报告)(1)
  • 基于WEB的超市销售管理系统设计 开题报告
  • Kubernetes服务网格Istio入门指南:实现微服务流量精细管控
  • 机器学习模型部署全流程:从TensorFlow到TensorRT加速推理
  • 基于Web的教学管理系统的设计与实现_开题报告
  • python importlib 动态加载代码到当前进程的应用执行 原理分析与实际应用
  • 【Linux 网络基础】WebSockets 强大的技术指南
  • Redis高级应用场景剖析:如何设计高可用缓存架构
  • Docker Sandbox 沙箱运行环境原理与应用开发实战
  • CC++链接数据库(MySQL)超级详细指南 - 教程
  • 前端性能监控体系搭建:从Lighthouse到自定义指标采集
  • Codesforces 329B Biridian Forest 题解