当前位置：首页 > news >正文

大模型微调面试100问，非常详细收藏我这一篇就好了！

news 2026/4/21 22:26:15

本文系统梳理了LoRA权重更新梯度反向传播公式推导，解释了固定只训练和能显著减少显存占用的原因。深入解析了QLoRA中NF4量化原理及其利用高斯分布优化量化区间的机制。详细阐述了Double Quantization在QLoRA中的实现步骤及其显存节省效果。推导了DPO损失函数从RLHF目标函数的推导过程，分析了参考模型冻结参数的必要性。解释了PPO算法中Clip操作的数学形式及其防止策略更新过大的原理。探讨了PPO训练中Actor/Critic/Reward/Reference模型显存分配策略及优化方法。

1. 请推导 LoRA 中权重更新矩阵的梯度反向传播公式，并解释为什么固定只训练和能显著减少显存占用？
1. 在 QLoRA 中，NF4 (Normal Float 4) 数据类型的量化原理是什么？它如何利用高斯分布假设来优化量化区间？
1. 请详细解释 Double Quantization 在 QLoRA 中的具体实现步骤，以及它如何进一步节省显存？
1. DPO (Direct Preference Optimization) 的损失函数是如何从 RLHF 的目标函数推导出来的？请写出关键推导步骤。
1. 在 DPO 训练中，参考模型 (Reference Model) 的作用是什么？为什么需要冻结它的参数？
1. 请解释 PPO (Proximal Policy Optimization) 算法中 Clip 操作的具体数学形式及其防止策略更新过大的原理。
1. 在 PPO 训练大模型时，Actor、Critic、Reward 和 Reference 四个模型同时加载，显存如何分配？有哪些优化策略？
1. 什么是 KTO (Kahneman-Tversky Optimization)？它如何利用前景理论 (Prospect Theory) 构建损失函数，与 DPO 有何本质区别？
1. 请解释 ORPO (Odds Ratio Preference Optimization) 如何将 SFT 和偏好对齐合并到一个损失函数中？Odds Ratio 项的具体定义是什么？
1. 在 LoRA 微调中，缩放系数的作用是什么？为什么通常设置为常数（如 16 或 32），而调整？
1. 什么是 LoRA+？它如何通过为矩阵和设置不同的学习率来提升收敛速度？
1. 请解释 DoRA (Weight-Decomposed Low-Rank Adaptation) 将权重分解为幅度和方向的具体数学过程，它解决了 LoRA 的什么表示能力瓶颈？
1. 在 ZeRO-3 (Zero Redundancy Optimizer Stage 3) 中，模型参数、梯度和优化器状态是如何在多个 GPU 之间分片的？通信开销主要在哪里？
1. 什么是 Gradient Checkpointing (Activation Recomputation)？请推导其时间复杂度与空间复杂度的权衡关系。
1. 在混合精度训练 (AMP) 中，Loss Scaling 的具体机制是什么？如何动态调整 Scale Factor 以防止梯度下溢？
1. 请解释 Flash Attention v2 的算法原理，它是如何通过分块 (Tiling) 和重计算来减少 HBM 访问次数的？
1. 什么是 Ring Attention？它如何在序列并行 (Sequence Parallelism) 中通过环状通信处理超长序列的 Attention 计算？
1. 在 SFT 阶段，如果只对 Response 部分计算 Loss，Mask 矩阵的具体构造方式是什么？这对梯度更新有什么影响？
1. 什么是 Catastrophic Forgetting (灾难性遗忘)？从 Fisher Information Matrix 的角度解释为什么微调会破坏预训练知识？
1. 请解释 Rehearsal Buffer (回放缓冲区) 在持续学习微调中的构建策略，如何选择最具代表性的旧数据？
1. 什么是 Layer-wise Learning Rate Decay (LLRD)？它如何根据层数深度调整学习率以稳定深层网络训练？
1. 在 Prefix Tuning 中，可学习的前缀向量是如何初始化才能避免训练初期的梯度消失问题？
1. 请解释 AdaLoRA 如何基于奇异值分解 (SVD) 动态分配不同层的秩 (Rank)，其重要性评分指标是如何定义的？
1. 什么是 GaLore (Gradient Low-Rank Projection)？它如何通过投影矩阵将全量梯度压缩到低秩空间进行优化器状态更新？
1. 在 RLHF 的 Reward Modeling 阶段，Pairwise Loss (如 Bradley-Terry 模型) 的具体公式是什么？如何处理平局 (Tie) 数据？
1. 什么是 Reward Hacking？在 PPO 训练中，KL Penalty 系数的设置如何平衡奖励最大化与分布偏离？
1. 请解释 SimPO (Simple Preference Optimization) 为何移除参考模型项，直接使用平均 Token 概率作为奖励信号的优缺点。
1. 什么是 Multi-Token Prediction (MTP) 在微调中的应用？它如何修改标准的 Cross-Entropy Loss 以支持并行预测？
1. 在长上下文微调中，YaRN (Yet another RoPE for NTK-aware Interpolation) 的插值因子是如何计算的？
1. 请解释 LLaMA-Pro 的 Block Expansion 方法，它是如何通过复制并微调特定 Transformer 块来扩展模型能力的？
1. 什么是 Mixture of Experts (MoE) 模型的稀疏微调？在微调过程中，Router 网络的负载均衡损失 (Load Balancing Loss) 如何计算？
1. 在 QLoRA 中，Page Attention 如何解决显存碎片化问题？它与操作系统虚拟内存分页机制有何异同？
1. 请推导 Contrastive Loss (如 InfoNCE) 在嵌入模型微调中的梯度形式，负样本数量对梯度的影响是什么？
1. 什么是 Hard Negative Mining？在微调嵌入模型时，如何动态挖掘难负例以提升区分度？
1. 在指令微调中，Self-Instruct 数据生成流程中的过滤机制 (Filtering) 具体包含哪些规则？
1. 什么是 Rejection Sampling Fine-Tuning (RFT)？如何利用验证集准确率来筛选高质量的生成数据？
1. 请解释 GRPO (Group Relative Policy Optimization) 如何通过对一组采样输出的相对优势估计来消除 Critic 模型？
1. 在多模态微调 (如 LLaVA) 中，Projector 层的初始化策略是什么？为什么通常先冻结 LLM 只训练 Projector？
1. 什么是 Vision-Language Alignment Loss？它如何约束图像嵌入与文本嵌入在潜在空间的一致性？
1. 请解释 Full Fine-tuning 中 Sharded Data Parallel (FSDP) 的通信原语 (All-Gather, Reduce-Scatter) 在前向和反向传播中的调用时机。
1. 什么是 Tensor Parallelism (TP) 在微调中的限制？为什么 TP 通常只在单节点内使用，而跨节点使用 Data Parallelism？
1. 在 LoRA 微调中，Merge 操作后的数值精度问题如何处理？是否需要重新量化？
1. 什么是 Weight Decomposition 在量化感知训练 (QAT) 中的应用？如何模拟量化噪声对梯度的影响？
1. 请解释 AWQ (Activation-aware Weight Quantization) 如何通过保留激活值较大的权重的精度来降低量化误差？
1. 在 DPO 训练中，如果 Chosen 和 Rejected 的回答长度差异巨大，Length Normalization 是否必要？如何设计？
1. 什么是 Implicit Preference Optimization？它如何从隐式反馈 (如点击率、停留时间) 中构建偏好对？
1. 请解释 Online DPO 与 Offline DPO 的区别，Online DPO 如何在训练过程中动态收集偏好数据？
1. 什么是 Iterative DPO？多次迭代训练是否会导致模型过度拟合偏好数据而丧失多样性？
1. 在 RLHF 中，Value Model (Critic) 的初始化策略是什么？直接用 Reward Model 初始化 Value Model 是否有效？
1. 什么是 PPO-Clip 中的 Old Policy 缓存机制？它在大规模分布式训练中如何保持一致性？
1. 请解释 MiniBatch 大小在 PPO 训练中对策略更新稳定性的影响，以及如何设置 Epochs 和 Steps。
1. 什么是 Entropy Bonus 在 PPO 中的作用？它如何防止策略过早收敛到局部最优？
1. 在 SFT 中，Label Smoothing 的参数如何影响模型对不确定样本的置信度？
1. 什么是 Curriculum Learning 在微调中的数据排序策略？是按难度递增还是递减更有效？
1. 请解释 Dynamic Batch Size (动态批大小) 在显存受限场景下的实现逻辑，如何根据序列长度自动调整？
1. 什么是 Gradient Accumulation 的数值稳定性问题？在大步长累积下，是否需要调整 Learning Rate 或 Warmup？
1. 在 LoRA 微调中，Target Modules 的选择 (如 q_proj, v_proj, gate_proj) 对最终性能的影响有何实验结论？
1. 什么是 Rank-Stabilized LoRA (RSLoRA)？它如何修改缩放因子以支持更大的秩而不发散？
1. 请解释 PiSSA (Principal Singular Values and Singular Vectors Adaptation) 如何利用 SVD 初始化 LoRA 矩阵以加速收敛？
1. 什么是 OLoRA (Orthogonal Low-Rank Adaptation)？正交约束如何防止参数更新破坏预训练子空间？
1. 在微调代码生成模型时，Code Execution Feedback 如何作为奖励信号整合到 RLHF 流程中？
1. 什么是 Tool-Augmented Fine-Tuning？如何构造包含工具调用轨迹 (Trace) 的训练数据？
1. 请解释 Function Calling 微调中的 Schema 约束损失，如何强制模型输出合法的 JSON 格式？
1. 什么是 Retrieval-Augmented Fine-Tuning (RAFT)？它如何在训练时引入检索文档以增强 RAG 能力？
1. 在领域自适应微调中，Continual Pre-training (CPT) 与 SFT 的数据配比应该如何权衡？
1. 什么是 Token Dropout？它在微调中作为一种正则化手段，与常规 Dropout 有何不同？
1. 请解释 Stochastic Depth 在 Transformer 微调中的应用，随深度增加丢弃概率的策略是怎样的？
1. 什么是 Layer Drop 在 BERT 类模型微调中的具体实现？推理时如何处理被丢弃的层？
1. 在低资源语言微调中，Cross-Lingual Transfer 的机制是什么？共享词表对迁移效果有多大影响？
1. 什么是 Adapter Fusion？如何组合多个任务特定的 Adapter 模块以实现多任务泛化？
1. 请解释 Compacter 适配器如何利用 Kronecker 积进一步压缩参数量？
1. 什么是 UniPELT？它如何统一门控机制来自动选择最佳的 PEFT 方法组合？
1. 在医学领域微调中，HIPAA 合规性如何通过差分隐私 (Differential Privacy) 技术实现？
1. 什么是 DP-SGD (Differentially Private SGD)？噪声添加和梯度裁剪的阈值如何影响模型效用？
1. 请解释 Federated Fine-Tuning 中的聚合算法 (如 FedAvg)，如何处理客户端数据异构性 (Non-IID)？
1. 什么是 Secure Aggregation 在联邦微调中的密码学原理？如何防止服务器窥探单个客户端更新？
1. 在模型编辑 (Model Editing) 中，ROME (Rank-One Model Editing) 如何定位存储特定事实的 MLP 神经元？
1. 什么是 MEMIT (Mass-Editing Memory in a Transformer)？它如何实现批量事实更新而不干扰其他知识？
1. 请解释 Knowledge Neurons 的识别算法，如何通过梯度归因找到存储特定知识的参数子集？
1. 什么是 Inverse Scaling Law？为什么某些任务在模型变大后微调效果反而下降？
1. 在评估微调模型时，Beyond Accuracy 的指标 (如 Robustness, Fairness) 如何量化？
1. 什么是 TruthfulQA 基准？它在检测微调模型幻觉方面的具体评测流程是什么？
1. 请解释 Self-Evaluation 在微调数据清洗中的应用，模型如何给自己生成的数据打分？
1. 什么是 Reflection Tuning？如何利用模型的自我反思能力构建高质量修正数据？
1. 在长文本微调中，Streaming Attention 的实现细节是什么？如何支持无限长度的输入流？
1. 什么是 Block-Sparse Attention？在微调中如何预先定义或动态学习稀疏模式？
1. 请解释 H2O (Heavy-Hitter Oracle) 算法，它如何在推理和微调中动态保留重要的 KV Cache？
1. 什么是 V-Tune？它如何通过验证集反馈自动搜索最佳的超参数组合 (如 r, alpha, lr)？
1. 在 LoRA 微调中，Dropout 的位置 (在 A 前、B 后还是中间) 对正则化效果有何影响？
1. 什么是 Bias Correction 在 AdamW 优化器微调中的作用？特别是在 Warmup 阶段？
1. 请解释 Lion 优化器 (Symbolic Discovery of Optimization Algorithms) 在微调大模型时的表现及原理。
1. 什么是 Adafactor？它如何通过分解二阶矩矩阵来减少优化器状态的显存占用？
1. 在 SFT 中，Instruction 模板的变化 (如加粗、换行) 对模型学习指令遵循能力有何微妙影响？
1. 什么是 System Prompt 微调？如何将系统指令作为可训练参数或固定前缀融入模型？
1. 请解释 Multi-Modal CoT 微调，如何对齐视觉特征与思维链文本的生成节奏？
1. 什么是 Video-LLM 的微调挑战？时间维度的 Attention 如何处理长视频序列？
1. 在音频 - 文本微调中，Whisper 风格的 Encoder-Decoder 架构与 Decoder-only 架构各有何优劣？
1. 什么是 Speech-to-Speech 直接微调？如何避免中间文本转录带来的信息丢失？
1. 请解释 End-to-End ASR 微调中的 RNN-T (RNN Transducer) 损失与标准 CTC 损失的区别。
1. 展望未来，完全基于合成数据 (Synthetic Data) 的微调流程中，如何建立可靠的质量验证闭环以避免模型崩溃 (Model Collapse)？