当前位置: 首页 > news >正文

李沐论文精读合集:67 篇深度学习经典论文逐段精读,从 AlexNet 到 Sora,B 站播放百万级的 AI 自学圣经

李沐论文精读合集:67 篇深度学习经典论文逐段精读,从 AlexNet 到 Sora,B 站播放百万级的 AI 自学圣经

💡 学深度学习读不懂论文?跟着李沐逐段精读!从 AlexNet 到 Sora,从 Transformer 到 GPT-4,67 篇经典论文逐段拆解,每篇 40-90 分钟深度讲解,B 站百万播放量的论文精读项目。涵盖 CNN 架构演进、Transformer 全家桶、生成模型、分布式训练、大语言模型、多模态等 8 大方向,配套《研究的艺术》4 讲教你做科研。全网最系统的 AI 论文学习路线,没有之一。

📌 目录

  • 1. 项目是什么?
  • 2. 为什么你需要它?
  • 3. 8 大方向论文路线图
  • 4. 精读论文完整清单
  • 5. 特色:不只读论文,还教做科研
  • 6. 如何使用这个项目?
  • 7. 优缺点与学习建议
  • 8. 总结

1. 项目是什么?

paper-reading是亚马逊资深首席科学家李沐(Mu Li)发起的深度学习论文逐段精读项目。

核心理念:不是给你讲个大概,而是带着你逐段读完,让你真正读懂每一行论文。

  • 🔗 项目地址:https://github.com/mli/paper-reading
  • 📺 B 站频道:跟李沐学AI
  • 🌐 YouTube:Mu Li
  • 📖 配套教材:《动手学深度学习》d2l.ai
  • ⭐ GitHub Star:26K+
  • 📊 总论文数:67 篇
  • 🎬 已录制:32+ 期

李沐是谁?

身份说明
亚马逊资深首席科学家从事 AI 研究与系统开发
《动手学深度学习》作者全球最畅销的中文深度学习教材
Parameter Server 作者分布式训练经典论文(OSDI’14)
MXNet 联合创始人深度学习框架
B 站百万粉丝 UP 主论文精读播放量累计过亿

一个既做过系统、又做过算法、还写得了教材、讲得了课的 AI 全栈大佬。


2. 为什么你需要它?

读论文的三个层次

层次说明你可能在哪
❶ 知道名字听说过 Transformer、BERT,但不清楚细节入门
❷ 读过摘要知道做了什么、结果多好,但没看实现初级
❸ 逐段精读每一行公式都理解,知道为什么这么设计进阶

李沐的精读带你从 ❶ 直达 ❸。

传统读论文的痛点

痛点李沐精读的解法
英文论文读不下去中文逐段讲解,不用查词典
公式看不懂逐步推导,从直觉到形式化
不知道为什么这么设计讲设计思路,不只讲是什么还讲为什么
不知道论文之间的关系串讲,讲清楚前后文脉络
读完了还是不会做科研《研究的艺术》4 讲,教方法论
没有系统学习路线8 大方向分类,从基础到前沿

3. 8 大方向论文路线图

路线一:CNN 架构演进 🏗️

从 AlexNet 到 EfficientNet,看 CNN 架构十年进化史:

AlexNet (2012) 深度学习奠基作 ↓ VGG (2014) 用 3×3 卷积堆叠更深网络 GoogleNet (2014) 并行架构 Inception ↓ ResNet (2015) 残差连接,撑起 CV 半边天 ⭐ ↓ MobileNet (2017) 终端设备轻量 CNN EfficientNet (2019) 架构搜索 SOTA Non-deep Networks (2021) 不深的网络也能刷 SOTA

必读:AlexNet → ResNet,这两篇理解了,CNN 架构演进的主线就通了。

路线二:Vision Transformer 🎯

Transformer 从 NLP 杀入 CV 的完整路径:

Transformer (2017) Attention Is All You Need ⭐ ↓ ViT (2020) 图像当 16×16 words ⭐ ↓ Swin Transformer (2021) 层次化 ViT ⭐ MLP-Mixer (2021) 用 MLP 替代 Attention ↓ MAE (2021) BERT 的 CV 版 ⭐

必读:Transformer → ViT → MAE,理解 ViT 的来龙去脉。

路线三:生成模型 🎨

从 GAN 到 Diffusion 到 DALL·E 2,生成模型十年演进:

GAN (2014) 生成模型开创工作 ⭐ ↓ DCGAN → WGAN → CycleGAN → StyleGAN → StyleGAN2 → StyleGAN3 ↓ DDPM (2020) Diffusion Models ⭐ Improved DDPM → Guided Diffusion ↓ DALL·E 2 (2022) CLIP + Diffusion ⭐ ↓ Sora (2024) 视频生成 ⭐ Movie Gen (2024) 精确视频编辑 HunyuanVideo (2025) 开源视频生成

必读:GAN → DDPM → DALL·E 2 → Sora,这条线串起来就是生成模型的全部精华。

路线四:目标检测 🔍

从 R-CNN 到 DETR,检测范式演进:

R-CNN (2014) Two-stage 开山 Fast R-CNN (2015) Faster R-CNN (2015) RPN + ROI Pooling ⭐ ↓ SSD (2016) Single stage YOLO (2016) You Only Look Once ↓ DETR (2020) Transformer 检测 ⭐

路线五:大语言模型 💬

从 GPT-1 到 Llama 3.1,大模型演进完整路线:

GPT → GPT-2 → GPT-3 (2020) 自回归语言模型 ⭐ ↓ InstructGPT (2022) RLHF 对齐 ⭐ ↓ GPT-4 (2023) 多模态大模型 ⭐ ↓ Llama 3.1 (2024) 开源大模型 ⭐ · 1. 导言 · 2. 预训练数据 · 3. 模型架构 · 4. 训练 Infra · 5. 训练过程 ↓ Anthropic LLM 安全对齐 HELM 全面评测 Chain of Thought 思维链 ⭐

必读:GPT-3 → InstructGPT → GPT-4 → Llama 3.1,这是理解大模型的核心路线。

路线六:多模态 🌈

CLIP → ViLT → CLIP 改进串讲 → 多模态论文串讲:

CLIP (2021) 对比学习图文对齐 ⭐ ↓ ViLT (2021) 极简多模态 Transformer ↓ CLIP 改进串讲(上/下) CLIP 生态全景 ↓ 多模态串讲(上/下) 多模态论文全景

路线七:分布式训练 ⚡

大规模训练的核心系统工作:

Parameter Server (2014) 分布式训练奠基 ⭐ ↓ GPipe (2019) 流水线并行 ↓ Megatron LM (2019) 张量并行 ⭐ ↓ ZeRO (2020) 零冗余优化 ⭐ ↓ Pathways (2022) 谷歌分布式架构

路线八:视频理解 🎬

Two-Stream (2014) 双流网络 ↓ I3D (2017) 3D 卷积 ↓ 视频理解串讲(上/下) 视频理解综述 ↓ Whisper (2022) 语音识别 ⭐

4. 精读论文完整清单

已录制视频(32+ 期)

#日期论文时长亮点
110/06/21如何读论文6:39方法论
210/14/21AlexNet(9 年后重读)19:59奠基作回顾
310/15/21AlexNet 逐段精读55:21深度学习起源
410/21/21ResNet(撑起 CV 半边天)11:50直觉版
510/22/21ResNet 逐段精读53:46公式版
610/27/21Transformer 逐段精读1:27:05⭐ 必读
711/03/21GNN/GCN 零基础详解1:06:19图神经网络
811/09/21GAN 逐段精读46:16生成模型起源
911/18/21BERT 逐段精读45:49NLM 里程碑
1011/29/21ViT 逐段精读1:11:30Transformer 进 CV
1112/08/21MAE 逐段精读47:04BERT 的 CV 版
1212/15/21MoCo 逐段精读1:24:11对比学习经典
1312/20/21对比学习论文综述1:32:01⭐ 全景梳理
1401/15/22Swin Transformer 精读1:00:21层次化 ViT
1501/23/22AlphaFold 2 精读1:15:28AI+生物
1602/10/22CLIP 逐段精读1:38:25⭐ 多模态里程碑
1703/03/22GPT/GPT-2/GPT-3 精读1:29:58⭐ LLM 起源
1803/10/22OpenAI Codex 精读47:58代码生成
1903/17/22AlphaCode 精读44:00竞赛级编程
2004/21/22Parameter Server 精读1:37:40分布式奠基
2105/27/22GPipe 逐段精读58:47流水线并行
2206/03/22Megatron LM 精读56:07张量并行
2306/10/22DETR 逐段精读54:22Transformer 检测
2406/17/22ZeRO 逐段精读52:21零冗余优化
2507/08/22DALL·E 2 逐段精读1:27:54⭐ 文生图
2609/02/22CLIP 改进串讲(上)1:14:43CLIP 生态
2710/23/22Chain of Thought33:21⭐ 思维链
2811/14/22Whisper 精读1:12:16语音识别
2912/29/22InstructGPT1:07:10⭐ RLHF
3003/30/23GPT-41:20:38⭐ 多模态大模型
317-9/24Llama 3.1(5 期连载)~2h⭐ 开源大模型
3201/10/25Sora + Movie Gen + HunyuanVideo1:04:18⭐ 视频生成

💡 标注 ⭐ 的是强烈推荐的必读视频,每期都是百万级播放量。


5. 特色:不只读论文,还教做科研

《研究的艺术》4 讲

李沐不仅教读论文,还教你做科研。基于芝加哥大学经典教材The Craft of Research,录制了 4 期特别节目:

期数主题时长核心内容
跟读者建立联系45:01你的研究写给谁看?如何建立与读者的连接
明白问题的重要性1:03:40什么才是值得研究的问题?如何论证重要性
如何讲好故事、论点43:56研究写作的叙事结构,如何构建论点
理由、论据和担保44:14如何用证据支撑论点,如何回应质疑

其他特别节目

标题时长主题
如何读论文6:39论文阅读方法论
如何判断研究工作的价值9:59选题与评估
如何找研究想法5:34发现研究 gap
论文不够 novel?14:11关于新颖性的思考
大模型时代做科研的四个思路1:06:29⭐ 穷人怎么做研究

6. 如何使用这个项目?

学习路径建议

🟢 入门路径(0 基础)
1. 如何读论文(6 分钟) 2. AlexNet 重读 → AlexNet 精读 3. ResNet 重读 → ResNet 精读 4. Transformer 精读 5. BERT 精读
🟡 进阶路径(有基础)
1. Transformer 精读(复习) 2. GPT/GPT-2/GPT-3 精读 3. InstructGPT 精读 4. GPT-4 精读 5. Llama 3.1(5 期连载) 6. 大模型时代做科研的四个思路
🔴 前沿路径(看最新进展)
1. CLIP 精读 → CLIP 改进串讲 2. MAE 精读 → ViT 精读 → Swin Transformer 3. DDPM → DALL·E 2 → Sora 4. Chain of Thought 5. Llama 3.1 全 5 期

观看渠道

平台链接特点
B 站跟李沐学AI中文字幕,弹幕互动
YouTubeMu Li无地区限制
知乎李沐知乎号部分视频同步

配套资源

资源链接说明
《动手学深度学习》d2l.ai系统教材
直播课c.d2l.ai/zh-v2视频课程
GitHub 讨论Discussions建议选题

7. 优缺点与学习建议

✅ 优点

维度评分说明
深度⭐⭐⭐⭐⭐真正逐段精读,不是泛泛而谈
广度⭐⭐⭐⭐⭐67 篇论文,8 大方向全覆盖
中文讲解⭐⭐⭐⭐⭐中文 AI 社区最高质量论文精读
设计思路⭐⭐⭐⭐⭐不只讲是什么,更讲为什么
串讲⭐⭐⭐⭐论文之间的脉络讲得清楚
更新频率⭐⭐⭐⭐持续更新到 2025 年 Sora

⚠️ 注意事项

事项说明
视频较长单期 40-90 分钟,需要专注时间
更新不固定非定期更新,取决于作者时间
部分方向未录制67 篇中已录制 32+ 期,约一半
前置知识需要一定 ML/DL 基础,纯小白建议先看 d2l
代码实操少以论文讲解为主,实操参考 d2l 教材

💡 学习建议

  1. 不要贪多:一次精读一篇,比泛读十篇更有价值
  2. 先看直觉版:如 ResNet 先看 11 分钟的直觉版,再看 53 分钟的公式版
  3. 边看边记:每期看完写 3 句话总结——做了什么、为什么这么做、效果如何
  4. 配合 d2l:论文精读是"为什么",d2l 是"怎么做",两条线并行
  5. 参与讨论:在 GitHub Discussions 建议选题、提问讨论

8. 总结

李沐论文精读项目是中文 AI 社区的无价之宝

  • 📚67 篇经典论文:从 AlexNet 到 Sora,深度学习十年精华
  • 🎯逐段精读:不是讲个大概,是带你每一行都读懂
  • 🧭8 大方向路线图:CNN / ViT / 生成模型 / 检测 / LLM / 多模态 / 分布式 / 视频理解
  • 📖《研究的艺术》4 讲:不只教读论文,还教做科研
  • 🎬B 站百万播放:每期都是精打细磨的精品内容
  • 👨‍🏫作者背景:Parameter Server 作者、d2l 作者、亚马逊首席科学家

推荐指数:⭐⭐⭐⭐⭐

无论你是刚入门的 AI 学生,还是想系统补课的工程师,这个项目都是你最好的论文学习伙伴。花 50 分钟看一期精读,胜过自己啃 5 小时论文。

📢 项目地址:https://github.com/mli/paper-reading


标签:#论文精读 #李沐 #Transformer #GPT #大模型 #AI学习路线

http://www.jsqmd.com/news/987068/

相关文章:

  • 草地牛火了之后,它后来发生了什么?
  • 旧手机别扔!用Termux和VNC Viewer把它变成你的第二台Ubuntu办公电脑(保姆级教程)
  • CKKS、BFV、BGV的旋转操作对比:选哪个方案更合适你的隐私计算项目?
  • NSK VH20AN高防尘直线导轨技术手册
  • SpringBoot+Vue二手数码产品交易平台源码+论文
  • 从“热情红”到“庄严靛”:如何用CSS变量和Tailwind CSS管理你的品牌色板?
  • 从单机到分布式:用 Go + Eino + DeepSeek V4 构建生产级 Code Review Agent
  • Mensa推理测试:大模型纯逻辑能力压力测绘与增强实践
  • 广州闲置名包出手,认准这家口碑优质回收门店 - 开心测评
  • 为了省地图 API 费用,我们把缓存做到极致,最后还是重构了整个位置服务
  • 拆开一个烧坏的IGBT模块,手把手教你识别过压、过流、过温的“案发现场”
  • MATLAB实战:用锤击法测水泥试件的固有频率与阻尼比(附完整代码与数据)
  • C++多关键字排序实战:从‘病人排队’题看stable_sort与sort的选用技巧
  • Now in Android 项目结构分析:这个 App 是如何搭建起来的?
  • 鸿蒙原生 ArkTS 布局详解:Column + alignItems(ItemAlign.Start) 垂直排列实战
  • 别再被旧教程坑了!InVEST 3.10.2新版生境质量模块保姆级配置指南(附正确表格模板)
  • 手机安装Appium Settings后闪退-最简单解决方式
  • 2026南昌市民常去贵金属回收实体店实测整理 黄金铂金白银回收正规商家前五榜单 - 诚金汇钻回收公司
  • 告别手动启动!为Cadence SPB17.4写一个简单的License服务守护脚本(Python/批处理)
  • ARM7TDMI-S经典架构解析:LPC2377/78嵌入式系统设计与外设实战
  • 四旋翼飞控开发避坑指南:从建模误差到实际调试的5个关键点
  • 还在为找不到伪装目标发愁?试试IJCAI 2021的C2FNet,手把手复现其注意力融合模块
  • Grafana Panel实战:用Time series面板+PromQL,5分钟搞定服务器CPU/内存监控大屏
  • 别再用Thread.sleep了!解决SocketException的三种更优雅姿势(含HttpClient实战)
  • 深耕甬城十载 赋能数字转型——宁波森迈商务信息咨询有限公司打造全域小程序综合服务标杆 - 资讯速览
  • 无人机飞手必看:如何利用PDOP/HDOP规划航线,提升航测与巡检的成图精度?
  • SpringBoot+Vue高校学生实习综合服务平台源码+论文
  • 告别玄学!用Multisim/ADS手把手仿真SI信号完整性与PI电源噪声(从理论到波形)
  • 数据科学新手避坑指南:从Excel到AI的72小时实战路径
  • PIR、PSI、OT…傻傻分不清?一文讲透隐私计算中几个易混淆的“查询”协议