当前位置: 首页 > news >正文

大模型面试宝典

21道高频面试题,一题一表,一句话总结

一、LoRA与模型微调

1. LoRA原理

维度内容
核心思想冻结原参数,训练旁路低秩矩阵 B×A
A矩阵随机初始化(降维)
B矩阵全0初始化(升维)
参数量减少99%+
效果接近全量微调

💡 总结:用两个小矩阵模拟大矩阵的更新,成本低效果好。


2. LayerNorm

维度内容
公式LN(x) = γ·(x-μ)/σ + β
操作减均值、除标准差、加缩放、加偏移
作用稳定训练

💡 总结:对每个样本做归一化,让训练更平稳。


3. RMSNorm

维度内容
公式RMSNorm(x) = γ·x / RMS(x)
去掉的操作减均值、加bias
保留的操作均方根缩放

💡 总结:LayerNorm的简化版,省掉均值和bias,计算更快。


4. RMSNorm vs LayerNorm

对比项LayerNormRMSNorm
计算量
速度
效果相当

💡 总结:LN成功靠缩放不变性而非平移不变性,RMSNorm又快又不差。

二、Transformer架构

5. 三种架构对比

架构代表模型注意力适用场景
Encoder-onlyBERT双向分类、NER、问答
Decoder-onlyGPT单向文本生成、对话
Encoder-DecoderT5双向+单向翻译、摘要

💡 总结:理解用BERT,生作用GPT,翻译用T5。


6. 为什么LLM都是Decoder-only?

原因说明
低秩问题双向注意力存在低秩效应,效果下降
成本效率同等条件下Decoder-only效果最优
Zero-shotDecoder-only的zero-shot能力更强

💡 总结:不是双向不好,而是Decoder-only在成本、效果、泛化上更均衡。


7. Transformer六大核心创新

组件作用
自注意力全局建模
多头注意力多角度捕捉
位置编码引入顺序信息
编码器-解码器理解+生成
残差连接防梯度消失
层归一化稳定训练

💡 总结:六剑合一的序列建模神器。

三、BERT详解

8. BERT的Mask策略

比例操作目的
15%选中做mask整体比例
80%→[MASK]标准训练
10%→随机词防过拟合,依赖上下文
10%不变避免finetune时没有[MASK]

💡 总结:核心目的是让模型具备纠错能力,不能死记硬背。


9. Warm-up策略(学习率预热)

阶段学习率原因
初期防过拟合
中期加速收敛
后期衰减稳定接近最优解

💡 总结:先慢后快再慢,像开车起步一样。


10. BERT预训练任务

任务类型目标
MLM词级分类预测被mask的词
NSP句级分类判断两句话是否连续

💡 总结:同时学单词理解和句子关系。


11. BERT损失函数

公式说明
L = L_MLM + L_NSP两个任务联合训练

💡 总结:简单相加,联合优化。


12. BERT vs ELMo

对比ELMoBERT
提取器LSTMTransformer
上下文双向拼接真正双向
使用方式Feature-basedFine-tuning

💡 总结:Transformer+LSTM、双向注意双向拼接、微调特征提取,全方位碾压。

四、RNN vs GNN

13. 区别与适用场景

维度RNNGNN
数据序列(时间顺序)图(节点+边)
核心问题长期依赖关系捕捉
适用语音、文本、时间序列社交网络、分子结构、推荐

💡 总结:序列问题用RNN,图结构问题用GNN,别混用。

五、显存与训练技巧

14. 显存占用估算

阶段公式7B模型示例
推理2×参数量 GB≈14GB
训练8×参数量 GB≈56GB

💡 总结:训练显存 ≈ 推理的4倍,因为要存梯度和优化器状态。


15. LayerNorm的三种位置

类型位置优点缺点
Post-LN残差后效果好训练不稳定
Pre-LN残差中训练稳定效果略差
Sandwich-LNPre-LN上加一层防值爆炸可能崩溃

💡 总结:大模型训练用Pre-LN,稳定第一。


16. LLM训练七条建议

#建议一句话解释
1弹性容错+自动重启训练几周,不能断
2定期存checkpoint断了能恢复
3想清楚再训练成本高,别重复
4关注TFLOPsGPU利用率不只是%
5选对框架DeepSpeed比原生好
6环境一致python/pip版本要管
7别乱升级GLIBC会导致系统崩溃

💡 总结:稳定 > 速度,省钱 > 面子,存盘 > 自信。

六、RAG专题

17. RAG基本原理

阶段做什么
离线文档→切块→向量化→存向量库
在线用户问→向量化→检索TopK→拼Prompt→LLM生成

💡 总结:让LLM带着"小抄"回答问题,防幻觉。


18. RAG评估方法

类型评估对象指标
独立评估检索模块Hit Rate、MRR、NDCG
独立评估生成模块上下文相关性
端到端评估最终回答准确性、相关性、EM

💡 总结:既要看检得准不准,也要看答得好不好。


19. RAG评估框架

框架核心方法
RAGAS手写Prompt自动评估
ARES合成数据训练LLM裁判

💡 总结:不想人工标注答案,就上RAGAS或ARES。


20. RAG各模块优化策略

模块优化策略
文档切分重叠、多粒度、语义切分
Embedding微调、动态表征
提示词优化模板、改写
大模型微调、量化、加长context
检索结果过滤、重排序

💡 总结:每一刀都能切出效果提升。

七、PDF数据提取

21. PDF提取方法

任务推荐工具一句话说明
提取文本PyMuPDF双栏排版也能保持顺序
提取表格camelot有线表效果好
提取扫描文本PaddleOCR+PPStructureOCR+版面分析

💡 总结:文本用PyMuPDF,表格用camelot,扫描件用PaddleOCR。

八、面试速记卡(一句话版)

问题一句话答案
LoRA原理冻结原参数,训练低秩旁路
RMSNorm好在哪里去掉了减均值,计算更快
为什么Decoder-only低成本+高效果+强zero-shot
BERT的mask策略80%[MASK]+10%随机+10%不变
为什么warm-up初期防过拟合
BERT vs ELMoTransformer > LSTM,微调 > 特征提取
训练显存估算推理2倍,训练8倍参数量
Pre-LN vs Post-LN大模型选Pre-LN,稳定
RAG原理检索增强生成,防幻觉
PDF提取PyMuPDF+camelot+PaddleOCR
http://www.jsqmd.com/news/718756/

相关文章:

  • 手把手教你为自研游戏引擎嵌入Mono运行时(Windows+VS2022保姆级配置)
  • 从选料到实测:BUCK电路电感与电容的采购避坑指南(附常见型号与实测波形)
  • 告别字体闪烁与布局偏移:Bilibili-Evolved加载策略全解析
  • GitHub下载太慢?这款智能加速插件让速度提升10倍不再是梦
  • BurpSuite插件实战指南:从Shiro检测到验证码绕过,这6款插件让渗透测试效率翻倍
  • Angular组件重构终极指南:ngx-admin独立组件实战解析
  • 江浙菜外卖哪家好吃?平价地道美味尽在美团必点榜 - 资讯焦点
  • 如何让GTNH科技整合包说中文:从语言障碍到流畅体验的完整指南
  • PyTorch实战:用ResNet替换VGG,手把手教你搭建更高效的Unet医学图像分割模型
  • RNFrostedSidebar与UINavigationController结合使用:实现无缝页面跳转
  • 3步解决AutoCAD字体缺失难题:基于FontCenter的完整字体管理方案
  • 新手云服务器选购与建站部署实战指南
  • SpringBoot项目里用JasperReport生成PDF报表,从设计到导出网页显示全流程避坑
  • 请客吃饭点外卖江浙菜哪家好?高档次聚餐外卖认准美团榜单 - 资讯焦点
  • 如何免费下载百度文库等30+平台文档?kill-doc开源脚本使用指南
  • Oumuamua-7b-RP惊艳效果:同一设定下连续30轮对话保持‘母性强’性格标签准确率96%
  • 绝不能错过!永辉超市购物卡回收最简单的方法! - 团团收购物卡回收
  • 保姆级教程:在Ubuntu 22.04上为LGT8F328P MiniEVB配置Arduino IDE与lgt8fx支持包
  • Chord视频分析工具5分钟快速部署:零基础搭建本地智能视频分析环境
  • LinkSwift网盘直链下载助手终极指南:八大网盘一键获取真实下载地址
  • 东北菜外卖哪家好吃?高性价比下饭东北外卖认准美团榜单 - 资讯焦点
  • UE5新手必看:解决‘hostfxr.dll找不到’和.NET Core版本冲突的保姆级教程
  • Pixel Epic智识终端参数详解:‘逻辑发散概率’对研报创新性影响分析
  • A3实验室推GA系统:以信息密度为目标,多维度性能超越主流Agent系统
  • 孕畜可用兽药选购体验:合规与专业服务双保障 - 资讯焦点
  • 别再死记硬背了!用简谱对照法,5分钟看懂尺八琴古流与都山流假名谱
  • 伪播客-大公司和小公司-薛定谔的选择
  • 下午茶点咖啡外卖哪家好?认准美团外卖必点榜,3步解锁优质外卖 - 资讯焦点
  • 告别Python命令行!我用SheetJS把Excel转JSON工具搬到了浏览器里
  • 3步实现微信聊天记录永久保存:WeChatMsg完整使用手册