当前位置: 首页 > news >正文

【CS336导言】nanoGPT

Andrej Karpathy 的 nanoGPT,本质上是:

一个“极简版 GPT 训练框架”。

项目目标非常直接:

用最少代码,教会你 GPT 到底怎么训练。

官方 GitHub:

nanoGPT Github


为什么 nanoGPT 很出名

因为以前很多 GPT 教程都有问题:

  • 太理论
  • 太抽象
  • 工业框架太复杂
  • 一堆 HuggingFace 黑盒

而 nanoGPT:

  • 只有几百行核心代码
  • 真能训练
  • 真能跑
  • 真能生成文本
  • 接近真实 GPT 架构

所以很多人说:

“这是理解 LLM 最好的入门工程。”


nanoGPT 核心特点

1. 极简

整个 GPT 核心:

  • model.py
  • train.py

基本就结束了。

不像工业代码:

configs/ trainer/ pipeline/ distributed/ kernel/

一堆东西。


2. 真正训练 GPT

不是玩具。

它可以:

  • 训练 Shakespeare
  • 训练中文语料
  • 训练小型代码模型
  • 多 GPU
  • bf16
  • compile
  • DDP

甚至能训练到:

几十亿 token

3. 非常接近现代 LLM

它包含:

  • causal attention
  • layernorm
  • residual
  • GELU
  • AdamW
  • weight tying
  • cosine lr schedule

也就是:

现代 GPT 的核心骨架。


nanoGPT 的整体结构

核心就几个文件:

文件作用
model.pyGPT 模型
train.py训练
sample.py推理生成
config/超参数

GPT 核心代码

最经典的是 attention:

att=(q @ k.transpose(-2,-1))*(1.0/math.sqrt(k.size(-1)))att=att.masked_fill(self.bias[:,:,:T,:T]==0,float('-inf'))att=F.softmax(att,dim=-1)y=att @ v

这里其实就是:

\mathrm{Attention}(Q,K,V)=\mathrm{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V

这几行代码就是 GPT 灵魂。


它训练什么

Karpathy 最经典 demo:

Tiny Shakespeare

数据集只有几 MB。

比如:

To be, or not to be...

训练后:

KING: What say you, my lord?

模型已经会生成莎士比亚风格文本。


为什么这很重要

因为你会第一次真正理解:

GPT 不是“会思考”

而是:

“不断预测下一个 token”

比如:

I love

模型预测:

AI you coding

本质是概率。

损失函数:

L=-\sum_i y_i\log p_i

也就是 Cross Entropy。


nanoGPT 的学习价值

它最大的价值不是:

“训练一个厉害模型”。

而是:

看懂 GPT 每一层到底干了什么。

很多人:

  • 会调 API
  • 会 LangChain
  • 会 Agent

但:

不知道 attention 到底怎么算

nanoGPT 会把这个黑盒拆开。


nanoGPT 会让你理解什么


1. 为什么上下文长度贵

因为 attention:

O(n²)

上下文翻倍:

显存 ≈ 4倍

2. 为什么训练那么烧钱

因为:

token × parameter × FLOPs

是天文级。


3. 为什么推理快不了

因为 autoregressive:

一个 token 一个 token 生成

不能完全并行。


4. 为什么 KV Cache 重要

否则每次都重新算 attention。


nanoGPT 和 CS336 的关系

其实:

CS336 很大程度上就是“nanoGPT 工业加强版”。

nanoGPT:

教学版 GPT

CS336:

OpenAI infra 模拟器

nanoGPT 适合谁

特别适合:

  • 想转 LLM infra
  • 想懂 Transformer
  • 想做 AI 投研
  • 想做本地模型
  • 想进大模型公司

最推荐的学习方式

顺序建议:

第一阶段

先看:

Andrej Karpathy 的:

  • “Let’s build GPT”
  • “Neural Networks: Zero to Hero”

YouTube 非常经典。


第二阶段

跑 nanoGPT:

python train.py config/train_shakespeare_char.py

第三阶段

自己改:

  • 中文 tokenizer
  • RoPE
  • FlashAttention
  • MoE

这时候成长最快。


nanoGPT 最大的意义

它把:

“AI 是魔法”

变成:

“AI 是矩阵乘法”

这是很多工程师真正入门 LLM 的转折点。

http://www.jsqmd.com/news/859654/

相关文章:

  • 口碑出众值得信赖!国内高评价儿童专注力公益机构精选推荐,感统失调/儿童专注力/儿童行为矫正,儿童专注力机构哪家好 - 品牌推荐师
  • Windows和Office激活终极指南:KMS_VL_ALL_AIO一键解决方案
  • 写给前端的 CANN-ops-fft:昇腾FFT算子库到底是啥?
  • 2026年酒店装配式卫生间生产厂家行业发展与技术创新 - 品牌排行榜
  • 贵阳西服定制标杆:老合兴洋服,凭四大核心优势圈粉无数 - 贵州服装测评君
  • 超声波分散仪十大厂家与推荐供应商:国内优质制造企业全景展示 - 品牌推荐大师1
  • 深度学习视频压缩技术解析与应用实践
  • Python利用openpyxl库写入或修改xlsx文件
  • 使用 curl 命令直接测试 Taotoken 聊天接口的连通性与返回格式
  • Prism Launcher:重新定义你的Minecraft启动体验
  • 学生心理测评系统哪家好?2026谁能守护青少年心理健康? - 健成星云
  • 2026年4月市面上有名的活性炭公司口碑推荐,杏壳活性炭/净水活性炭/煤质柱状活性炭/食品级活性炭,活性炭品牌找哪家 - 品牌推荐师
  • Audio Slicer:智能音频分割终极指南,告别繁琐手动剪辑
  • 2026年求推荐中式整装企业-靠谱的中式整装公司-比较好的中式整装品牌企业 - 品牌推广大师
  • 2026医考机构通过率对比:谁更值得选? - 医考机构品牌测评专家
  • 【仅限前500名设计师获取】Midjourney双色调调色板生成器(含17组经Adobe Color验证的高转化配色矩阵)
  • 采购必看:复合盐雾试验机哪家口碑好?内行人都推昆山澳博检测仪器有限公司! - 品牌推荐大师
  • 2026 年广东省内医科大学院校哪所比较好?有什么报考推荐 - 品牌2025
  • 使用Taotoken后API调用稳定性与延迟的实际体验观察
  • 零基础考医师资格证,怎么选辅导机构? - 医考机构品牌测评专家
  • 喀什外贸独立站哪家服务好?WaiMaoYa 外贸鸭打造中亚贸易专业网站 - 外贸营销工具
  • 从一颗2N5551看懂半导体散热:热阻Rja、Rjc到底怎么测?对我们选型有啥用?
  • AI 不锈钢电热保温杯智能功率 MOSFET 完整选型方案
  • 避坑指南:华为云Stack OBS 3.0对象存储部署,小型化与标准化方案到底怎么选?
  • 广州俄罗斯线路代理清关公司实力排行盘点 - 互联网科技品牌测评
  • 2026年太原漏水检测维修靠谱公司推荐榜:精准测漏、查漏水、测漏水、地埋管漏水、漏水维修、防水维修服务商甄选指南 - 海棠依旧大
  • 如何在ComfyUI中使用InstantID实现AI人脸风格化:完整指南与实战技巧
  • 伊犁外贸建站如何挑选?WaiMaoYa 外贸鸭覆盖西域跨境出海服务 - 外贸营销工具
  • AI 不锈钢厨具智能功率 MOSFET 完整选型方案
  • 告别龟速下载!用官方离线包在Windows上快速搞定ESP-IDF+VSCode环境