当前位置: 首页 > news >正文

深度学习50问

深度学习50问

一、深度学习基础(数学与本质)

  1. 为什么深度神经网络具有“通用逼近能力”?它的局限性是什么?
  2. 深度模型为什么能泛化?泛化从何而来?为什么过参数化反而更容易泛化?
  3. 解释一下梯度消失与梯度爆炸的数学本质,为什么 ReLU 能缓解?
  4. Batch Gradient Descent、Mini-batch、SGD 的本质区别是什么?为什么深度学习几乎都用 mini-batch?
  5. 为什么深度学习需要非线性激活函数?如果把所有激活函数去掉会发生什么?

二、优化与训练技巧

  1. Adam 为什么比 SGD 更快?它真正解决了什么问题?为什么有时候还要用 SGD?
  2. 为什么学习率是训练中最重要的超参数?learning rate warmup 的根本原因是什么?
  3. 权重初始化为什么重要?Xavier 和 Kaiming 的原理是什么?
  4. 梯度裁剪(gradient clipping)是用来解决什么问题的?为什么有效?
  5. 为什么深度学习训练常常需要 early stopping,而不是训练到 loss 完全收敛?

三、正则化与泛化能力

  1. Dropout 为什么能防止过拟合?它与 bagging 的关系是什么?
  2. 为什么 BatchNorm 能加速训练、稳定梯度?它是如何改变 loss landscape 的?
  3. LayerNorm、BatchNorm、GroupNorm 的主要差别与适用场景分别是什么?
  4. L2 正则(权重衰减)为什么能提升泛化?为什么会与 Adam 的更新规则冲突?
  5. 数据增强为什么能极大提高效果?它的本质是干什么?

四、卷积神经网络(CNN)

  1. 你能解释 CNN 的“平移不变性”和“局部相关性”的根本来源吗?
  2. 为什么卷积比全连接更适合图像?从参数规模与归纳偏置角度解释。
  3. 残差结构(ResNet)为什么能解决深度退化问题?本质是解决了什么?
  4. 为什么深层 CNN 的 receptive field 增大能够提升抽象能力?
  5. 为什么 CNN 在 NLP 中逐渐被自注意力机制取代?

五、序列模型(RNN → LSTM → Transformer)

  1. RNN 为什么难以捕捉长期依赖?数学上体现在哪?
  2. LSTM 的三个门分别解决了 RNN 的哪些根本问题?
  3. Transformer 为什么能够完全替代 RNN?
  4. 自注意力机制为什么能并行化?为什么能捕捉长距离依赖?
  5. Multi-head Attention 的核心作用是什么?为什么不是一个 head 就够?

六、Transformer 深层机制

  1. Post-Norm 为什么会训练不稳?Pre-Norm 为什么能解决?
  2. 为什么 Transformer 的深度越高越稳定?ResNet 思想起了什么作用?
  3. 为什么 Transformer 需要 positional encoding?如果不加会怎样?
  4. 为什么 Decoder 需要“mask”?不 mask 会出现什么问题?
  5. 为什么 Transformer 这么容易 scale(GPT-4、GPT-5)?它的结构有什么优势?

七、表示学习(Word2Vec、Embedding、本质)

  1. Word2Vec 的 Skip-Gram 本质在做什么?为什么是一个二分类问题?
  2. embedding 矩阵的本质是什么?为什么 embedding 会自动学到语义?
  3. 为什么 Word2Vec 能学出“king – man + woman = queen”?
  4. 为什么 Transformer 中 embedding 与输出层常常权重共享?

八、生成模型(GAN、VAE、Diffusion)

  1. GAN 不稳定的根源是什么?为什么会 mode collapse?
  2. VAE 为什么生成结果模糊?与 GAN 的差异来自哪里?
  3. Diffusion Model 为什么能超越 GAN?它的可控性从何而来?
  4. KL divergence 在 VAE 中扮演什么角色?
  5. GAN 的判别器过强会导致什么问题?为什么?

九、模型评估与理解

  1. 为什么不能仅看 training loss 就判断模型是否学得好?
  2. 为什么深度模型常常 test loss > train loss?但 test 精度却更高?
  3. 为什么图像分类准确率并不能反映真正的“模型理解能力”?
  4. 为什么模型会对对抗样本如此脆弱?
  5. 为什么神经网络缺乏可解释性?有哪些可解释方法?

十、深入思考(高难度核心问题)

  1. 为什么 over-parameterization(参数远多于样本)反而有助于优化?
  2. 神经网络为什么能在 loss landscape 中找到好的 minimum?
  3. 为什么 sharp minimum 不一定差,flat minimum 不一定好?
  4. Self-supervised learning 为什么能取得这么好的效果?
  5. 如果你要设计下一代 Transformer,你觉得核心瓶颈在哪里?
http://www.jsqmd.com/news/51936/

相关文章:

  • 借助gdb推进修改oracle scn
  • 2025年11月红外防潮系统,碳红外防潮取暖系统,别墅红外防潮系统厂家推荐:实力防潮品牌解析,采购无忧之选!
  • 2025年11月天津防潮公司,北京别墅地下室防潮公司,上海防潮公司权威推荐,防潮技术与市场口碑深度解析
  • 50048_基于微信小程序的人事管理系统
  • 树状数组 线段树 笔记
  • 二分答案 序列划分
  • Ai元人文:谦卑的舞台搭建者——岐金兰与她的未完成之歌
  • 2025年下半年UVLED面光源、UVLED线光源、UV固化箱、UV解胶机、UV固化炉厂家Top 5推荐指南:选购必看榜单
  • 2025年江苏宣传片、网站建设、AI GEO、外贸站、小程序商城公司综合评测与精选服务商推荐
  • 数据破界,价值共生:东软锚定AI时代民生新答卷
  • Ansible生产调优与故障排查全攻略 - 实践
  • 2025年下半年UVLED面光源、UVLED线光源、UV固化箱、UV解胶机、UV固化炉厂家综合评测与选购指南
  • 简单 DP 模型
  • 大模型(LLM)基本原理
  • 2025年江苏徐州板式家具、模压托盘、桥洞力学板、三聚氰胺饰面板品牌公司综合推荐指南:五大优质厂商深度解析
  • 实训(补)
  • 马克思主义课程
  • Check Point R82 Gaia - 面向安全应用的下一代操作系统
  • 2025年下半年江苏网架、钢结构、光伏支架钢管、托辊钢管、汽车传动轴钢管厂家推荐指南:专业选择与权威解析
  • 2025年11月压力容器、化工设备、锅炉、换热器、反应釜厂家怎么选:前五推荐指南
  • 2025年下半年候车亭、公交站台、电子站牌、公交站牌、公交候车厅选购指南:十大优质供应商推荐
  • 2025年下半年江苏徐州冷弯成型前冲孔生产线、C型钢自动抱焊机、钢结构码垛机、H钢冲孔液压设备、光伏支架冲孔机厂家选购指南与市场解析
  • 2025年下半年冷弯成型前冲孔生产线、C型钢自动抱焊机、钢结构码垛机、H钢冲孔液压设备、光伏支架冲孔机优质供应商推荐指南
  • 2025年下半年压力容器、化工设备、锅炉、换热器、反应釜厂家综合推荐指南:十大优质供应商深度解析
  • 从“人工寻宝”到“秒级解析”:文档信息抽取技术重塑保险保单处理流程
  • 2025年下半年轴连轴承、水泵轴承、转向轴承、圆锥滚子轴承、汽车水泵轴承厂家综合推荐指南:十大优质供应商盘点
  • Swift相机功能实战:手把手教你实现扫码、拍照、视频录制全流程 - 指南
  • 全息投影仓的AI连接系统的开发代码要怎么写?
  • 2025年下半年候车亭、公交站台、电子站牌、公交站牌、公交候车厅厂家综合评估与选购指南
  • VUE3基础环境搭建