当前位置: 首页 > news >正文

ScalingLaws-2022-Chinchilla-2:既然Dₒₚₜ/Nₒₚₜ≈20,为什么LLaMA系列用的D/N远大于20【Chinchilla比例:每个参数大约对应20个token】

每个参数大约对应 20 个 token(常被叫作Chinchilla 比例)并不是一条“宇宙定律”。

你看到LLaMA 系列的 token/参数 比值远大于 20,核心原因是:他们优化的目标、约束条件、以及用来拟合的“最优前沿(frontier)”都变了

尤其从 Llama 3 开始,论文里甚至明确承认:小模型会被“刻意训练得比 compute-optimal 更久”,因为这样在同等推理成本(inference budget)下更强

一、先把“20”从哪来讲清楚:它来自 Chinchilla 论文的 compute-optimal 前沿

Chinchilla(Hoffmann et al., 2022 / 2203.15556)要解的问题是:

在固定训练计算量(FLOPs 预算)下,参数量和训练 token 数怎么分配,才能让 loss 最小?

论文里把训练计算量近似写成(文中用 FLOPs 估算;常见近似形式之一是与N ⋅

http://www.jsqmd.com/news/330908/

相关文章:

  • 汉中火锅串串聚餐首选|把把赢火锅串串,24小时鲜货不停歇
  • 开题报告 雅韵古诗词系统python爬虫
  • 《提示工程架构师:开启Agentic AI创新价值宝库的钥匙》
  • 完整教程:程序员技术成长导航,专栏汇总
  • 开发一个Android App: 打牌计分器
  • 【毕业设计】基于SSM的疫情健康上报管理系统(源码+文档+远程调试,全bao定制等)
  • SSM毕设项目推荐-基于SSM实现手机销售商城系统基于SSM的手机商城【附源码+文档,调试定制服务】
  • 提示工程架构师必备:响应优化的服务降级策略
  • 软件测试基础知识
  • 电商数据分析中的多步骤推理挑战
  • 题解:Transformation
  • 高二上期末考试总结
  • 【毕业设计】基于SSM的手机商城(源码+文档+远程调试,全bao定制等)
  • 从技术批判到政治决断:论算法黑箱的资本逻辑与语境主权的治理革命
  • Dify 实战:通过 Dify 快速接入 MCP Server
  • SSM毕设选题推荐:基于SSM的疫情健康上报管理系统小区疫情防控系统的设计与实现【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 计算机SSM毕设实战-基于SSM的疫情健康上报管理系统疫情数据上报、疫情数据分析、疫情信息发布、健康打卡管理【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • VSCode 下如何检查 Vue 项目中未使用的依赖?
  • 【计算机毕业设计案例】基于SSM的疫情健康上报管理系统疫情管理、行程上报、健康上报(程序+文档+讲解+定制)
  • SSM毕设选题推荐:基于SSM的手机商城基于SSM实现手机销售商城系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • Dify 实战:使用 Docker Compose 部署 Dify
  • HTTP Content-Type
  • Bootstrap5 轮播
  • 计算机SSM毕设实战-基于SSM的手机商城基于VUE+SSM手机商城销售系统【完整源码+LW+部署说明+演示视频,全bao一条龙等】
  • AI应用架构师实战:智能控制系统架构的原型验证方法
  • 【课程设计/毕业设计】基于SSM的疫情健康上报管理系统每日体温填报 异常症状上报(咳嗽、发热等) 数据可视化【附源码、数据库、万字文档】
  • 解读IEC 80601-2-71-2025
  • 多模态-8 YOLO World
  • 巴基斯坦总理谢里夫达沃斯观点-万祥军| 世界经济论坛·国际科学院组织
  • 新旧版元器平台获取智能体 token 方式