当前位置：首页 > news >正文

深入解析：一些大模型算法的面试QA

news 2026/4/7 15:28:08

深入解析：一些大模型算法的面试QA

Q1、大模型微调过程，模型参数调整经验；
如何降低幻觉，项目里agent的具体工程流程，
数据预处理，和dify使用，qwen等国内主流模型了解，vllm模型部署经验。

A1：
（1）大模型微调：参数调整经验
LoRA 策略：我通常将 $r$ (Rank) 设定在 8 到 64 之间。经验表明，对于特定任务（如提取信息）， $r = 8$ 足够；但对于困难逻辑任务（如代码生成），我会提升至 $r = 64$ 。同时， $α\alpha$ (Scaling) 通常设为 $2 r$
学习率（LR）： * 全量微调：通常设为很小，如 $1 e - 5$ 或 $2 e - 5$ LoRA/QLoRA：可以稍大，如 $1 e - 4$ 或 $2 e - 4$
关键经验：我会利用 Cosine 学习率调度器配合 Warmup（通常占总步数的 5%-10%），防止模型在初期梯度爆炸
训练目标：监控 Train Loss 和 Eval Loss 的鸿沟。假设 Eval Loss 开始回升，立即通过 Early Stopping 或降低学习率来防止过拟合

（2）降低幻觉
RAG（检索增强）：这是最立竿见影的工程手段。通过将外部可信知识库向量化，在 Prompt 中强制要求模型“仅根据以下上下文回答”。
SFT 材料治理：在微调信息中加入“诚实性样本”。即对于无法回答的问题，训练模型说“对不起，根据已有信息我无法回答”，而不是强行预测下一个 token。
否与检索到的事实冲突。就是验证环节（Self-Reflection）：在 Agent 流程中加入一步“自审”，让模型检查自己的答案

（3）Agent具体的工作流程
规划 (Planning)：将复杂目标拆解为子任务（子目标）
记忆 (Memory)： * 短期：通过 ChatHistory 维持上下文。长期：将历史交互存入向量数据库，按需召回。
工具调用 (Tool Use)： LLM 输出结构化 JSON 或特定格式（如 Python 代码），由后端 Executor 执行 API 请求或数据库查询
迭代反馈：获取工具执行结果后，重新输入模型进行下一步决策

（4）数据预处理
清洗：正则过滤 HTML 标签、特殊符号、去敏感信息 (PII)。
去重：使用 MinHash + LSH 算法进行语料库级别的大规模去重，防止模型复读机。
质量筛选：使用小模型（如 Qwen-1.8B）或规则对语料进行打分，剔除逻辑不通或回复过短的低质数据。
构造 Instruction：针对 GRPO 或 SFT 任务，将原始文本转化为“User: {Instruction} \n Assistant: {Response}”的多轮对话格式。

（5）Dify应用与国内主流模型
Dify：我在项目中利用 Dify 敏捷搭建 RAG 原型。它的优势在于 Prompt 编排的可视化和内置的数据切片优化。我会通过 Dify 调用后端 API，实现业务逻辑的解耦。

（6）vLLM模型部署经验
PagedAttention：这是 vLLM 的核心。它模仿操作系统内存管理，将 KV Cache 存储在非连续的物理空间，彻底解决了显存碎片化问题，支持更高的并发量。

Continuous Batching：允许在旧请求结束前插入新请求，极大提升了 GPU 利用率。

Q2：Dify
Dify 的作用： Dify 不仅仅是 UI，它是 Prompt IDE 和 RAG 工作流引擎

Q3：P-tuning、LoRA 与 DPO
P-tuning：只训练插入在输入端的可学习 Embedding（Virtual Tokens）
LoRA：凭借低秩分解 $W_0 + \Delta W = W_0 + BA$ ，只训练 $B$ 和 $A$ 两个小矩阵。
DPO：直接偏好优化。跳过奖励模型（RM），直接在偏好对上计算 Loss，使模型更倾向于选好的答案。

Q4：微调的关键趋势：现在更强调数据多样性和质量（Synthetic Data）。我们通常会剔除低质量回复，并利用模型自我生成（Self-Instruct）来扩充推理类数据。

关于 DPO (Direct Preference Optimization)：我经常使用 DPO。相比传统的 RLHF（PPO 算法），DPO 不要求训练奖励模型 (Reward Model)，直接在偏好数据（Chosen/Rejected）上优化。它训练更稳定、显存占用更小，且在对齐模型价值观和减少幻觉方面表现极其出色。

Q4：RAG的技术路线

RAG（检索增强生成）目前已经从朴素架构进化到了高级架构：

数据处理（Ingestion）：文档清洗 -> 语义分块（Chunking）-> 向量化（Embedding）-> 存入向量数据库。

检索（Retrieval）：根据 Query 搜索最相关的 Top-k 文本块。

增强（Augmentation）：将检索到的上下文与原始 Query 拼接，构建 Prompt。

生成（Generation）：送入 LLM 生成回答。

前沿演进：GraphRAG（结合知识图谱）、Modular RAG（加入重排序 Rerank 和查询重写 Rewrite）。

RAG 过程中的影响因素与评价

影响阶段：

检索前：Query 解析是否准确（Query Expansion）。

检索中：索引质量、向量相似度计算、召回率。

检索后：**Rerank（重排序）**至关重要，决定了输入给 LLM 的上下文相关度。