当前位置：首页 > news >正文

LLM面试笔记深度解析：从Transformer到RAG的工程实践与高频考点

news 2026/5/10 5:25:38

1. 项目概述：一份面向开发者的LLM面试笔记

最近几年，大语言模型（LLM）无疑是技术圈最炙手可热的话题。从ChatGPT的横空出世，到各类开源模型的百花齐放，再到企业级应用的遍地开花，LLM技术栈已经从一个前沿研究领域，迅速演变为一个庞大且充满机遇的产业。随之而来的，是市场对相关人才需求的急剧膨胀。无论是头部大厂，还是初创公司，都在争相设立LLM相关的岗位，从算法工程师、应用开发工程师到架构师，薪资水平也水涨船高。

然而，与火热的需求形成鲜明对比的，是面试准备资料的零散和不成体系。很多开发者，尤其是从传统机器学习或后端开发转型过来的朋友，在面对LLM面试时常常感到无从下手。面试官的问题可能横跨模型原理、工程实践、应用场景和前沿趋势，你需要准备的远不止是“Transformer架构是什么”这样的基础问题。正是在这样的背景下，我注意到了GitHub上一个名为“wdndev/llm_interview_note”的项目。这并非一个代码库，而是一份精心整理的、面向求职者的LLM面试笔记。它像是一张地图，试图为在LLM技术森林中寻找方向的开发者们，勾勒出一条清晰的路径。

这份笔记的价值在于，它并非简单的知识点罗列，而是站在面试官和求职者双重角度，对LLM领域核心、高频、有深度的面试问题进行梳理和解答。它覆盖了从基础理论到工程落地，从模型微调到系统设计的全链路知识。对于正在准备面试的你，这份笔记可以帮你查漏补缺，构建系统化的知识框架；对于希望系统学习LLM技术的开发者，它也是一份极佳的学习路线图。接下来，我将结合我个人的面试官经验和一线开发体会，对这份笔记的核心内容进行深度拆解，并补充大量实战中才会遇到的细节和“坑点”。

2. 笔记核心内容架构与学习路径解析

2.1 知识体系全景图：四大核心模块

一份优秀的面试笔记，其结构本身就能反映出知识体系的完整性。“llm_interview_note”项目通常会将内容划分为几个逻辑清晰的模块，我们可以将其归纳为四大核心板块：

第一板块：模型基础与核心原理。这是所有问题的基石。这部分会深入探讨Transformer架构的每一个组件：自注意力机制（Self-Attention）的数学原理、多头注意力（Multi-Head Attention）如何并行工作、位置编码（Positional Encoding）的几种实现方式（如正弦波、可学习参数、RoPE等）。此外，必然涵盖预训练的核心任务，如掩码语言建模（MLM）、下一句预测（NSP），以及更现代的因果语言建模（CLM）。理解这部分，是回答一切衍生问题的前提。

第二板块：模型训练与高效微调。当模型从论文走向实践，训练和微调就成了关键。笔记会详细对比全参数微调（Full Fine-tuning）与参数高效微调（PEFT）的优劣。重点会放在LoRA（低秩适应）、QLoRA（量化LoRA）、P-Tuning、Prefix-Tuning等热门技术上。面试官不仅会问“LoRA是什么”，更会追问“为什么LoRA有效？”、“秩（rank）的选择如何影响效果和效率？”、“QLoRA是如何结合量化的？”。这部分需要你不仅知道概念，还要理解其背后的动机和权衡。

第三板块：推理部署与工程优化。模型训练好之后，如何高效、低成本地服务起来，是工程能力的试金石。这一板块内容极其丰富，包括：模型量化（INT8/INT4、GPTQ、AWQ等）、模型剪枝、知识蒸馏等压缩技术；推理框架（如vLLM、TGI、TensorRT-LLM）的原理与选型；注意力优化技术（如PagedAttention、FlashAttention）如何大幅提升吞吐量；以及缓存（KV Cache）机制的原理与内存估算。这是区分理论家和工程师的关键部分。

第四板块：应用开发与前沿拓展。最终技术要落地于应用。这部分会涉及基于LLM的应用架构模式，如Agent（智能体）的设计（ReAct、Tool Calling）、RAG（检索增强生成）的系统搭建与优化、长上下文处理技术，以及对多模态、模型评测、安全对齐（Safety Alignment）等前沿话题的探讨。面试官希望通过这些问题，考察你解决实际业务问题的思路和视野。

2.2 高效使用笔记的学习方法论

拿到这样一份宝典，切忌从头到尾盲目背诵。我推荐一种“三轮驱动”学习法：

第一轮：广度扫描，建立地图。快速通读所有章节的标题和核心问题，不追求深入理解。目标是画出你自己的“LLM面试知识脑图”，知道有哪些领域，每个领域下有哪些核心问题。这个过程能帮你消除对未知的恐惧，明确自己的薄弱环节。

第二轮：深度挖掘，理解本质。针对脑图中的每个节点，结合笔记中的解答，进行深度学习。这里的关键动作是“追问”。例如，笔记提到“FlashAttention通过减少GPU高带宽内存（HBM）的读写次数来加速”，你就要去追问：标准的注意力计算HBM访问次数是多少？FlashAttention是如何通过分块（Tiling）和重计算（Recomputation）将其降低的？IO复杂度从O(N²d)降到O(N²d²/M)具体是怎么算出来的？（其中N是序列长度，d是头维度，M是SRAM大小）。只有经过这种追问，知识才是你的。

第三轮：模拟实战，查漏补缺。合上笔记，假设自己是面试官，针对每个模块设计问题。或者，寻找伙伴进行模拟面试。在回答中，刻意使用“STAR”原则（Situation, Task, Action, Result）来组织你的答案，尤其是涉及项目经验时。例如，不要只说“我用了RAG”，而是说“在XX项目中，为了降低模型幻觉（Situation），我们需要让模型基于最新的产品文档回答问题（Task）。我对比了稠密检索和稀疏检索，最终选用Chroma+BM25进行混合检索，并设计了递归检索和重排序策略（Action），最终将回答的事实准确性提升了40%（Result）。”

注意：笔记是“参考答案”，不是“标准答案”。技术日新月异，面试官可能持有不同见解。你的目标不是背出笔记，而是以笔记为纲，形成自己逻辑自洽、有个人思考的技术观点。在回答时，可以坦诚地说“关于这个问题，我了解到有A和B两种主流观点，我认为在XX场景下A更合适，因为…”。

3. 核心面试问题深度剖析与延伸解读

笔记中会列出大量问题，这里我挑选几个最具代表性、最容易追问到底层的问题，进行超详细解读，并补充笔记中可能未尽的细节。

3.1 Transformer的自注意力机制：从公式到CUDA内核

问题：请详细解释Transformer中自注意力机制的计算过程，并分析其计算和空间复杂度。

基础解答（笔记层面）：对于输入序列矩阵X，通过三个权重矩阵W_Q, W_K, W_V线性变换得到查询（Q）、键（K）、值（V）矩阵。计算注意力分数为 Attention(Q, K, V) = softmax(QK^T / √d_k) V。复杂度为O(n²·d)，其中n是序列长度，d是特征维度。

深度延伸与面试应对：

为什么要除以√d_k？这是为了“缩放”。点积QK^T的结果，其方差会随着d_k的增大而增大。方差过大会导致softmax函数的梯度非常小（趋于0或1），陷入饱和区，使得模型训练困难。除以√d_k可以将方差稳定在1左右，确保梯度有效。
多头注意力（Multi-Head）的本质是什么？它不是一个简单的“并行”。其公式为：MultiHead(Q, K, V) = Concat(head₁, …, head_h)W^O，其中 head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)。关键在于，它将模型的能力分配到了不同的“表示子空间”。你可以这样类比：单头注意力是一个通才，试图一次性理解所有方面的关系；多头注意力则组建了一个专家委员会，每个“头”专注于一种类型的依赖关系（例如，一个头专攻语法结构，一个头专攻指代关系，一个头专攻语义搭配）。通过实验可视化的注意力图，确实能观察到不同头关注的不同模式。
计算复杂度的详细推导：
- Q, K, V 变换：三个矩阵乘法，每个是 [n, d] * [d, d] = O(3·n·d²)。
- QK^T: [n, d] * [d, n] = O(n²·d)。
- Softmax: 按行计算，每行n个元素，复杂度O(n²)。
- 乘以V: [n, n] * [n, d] = O(n²·d)。
- 因此，主导项是O(n²·d)。当序列长度n很大时（如处理长文档），n²会成为性能瓶颈，这就是为什么需要FlashAttention这类优化技术。
工程实现中的“坑”：在自研注意力层时，很多人会忽略对mask的正确处理。在训练时，我们需要一个下三角掩码（因果掩码）来防止未来信息泄露。这个mask需要在softmax之前，加到QK^T的矩阵上，通常是将需要屏蔽的位置设置为一个极大的负数（如-1e9），这样经过softmax后，这些位置的权重就几乎为0。

3.2 LoRA微调：为什么有效？如何调参？

问题：解释LoRA的原理，并说明其在微调大模型时的优势。如何选择LoRA的秩（rank）和Alpha参数？

基础解答：LoRA（Low-Rank Adaptation）假设模型微调过程中的权重更新ΔW是低秩的。它不直接更新原始大权重矩阵W（维度d×k），而是用两个小矩阵A和B的乘积来近似这个更新：ΔW = B A，其中A∈R^(r×k), B∈R^(d×r)，秩r << min(d, k)。微调时，只训练A和B，冻结原始W。前向传播变为：h = Wx + ΔW x = Wx + BAx。优势是大幅减少可训练参数量，降低显存占用，便于多任务切换。

深度延伸与面试应对：

“低秩假设”为什么成立？这是LoRA有效的核心。直观理解：预训练好的大模型已经学习了丰富的通用特征，针对特定下游任务的适配，可能只需要在某个高维特征空间中进行一些“微调”。这种微调方向可能不需要动用整个高维空间的所有维度，而是在一个低维子空间中就足以表达。从数学上看，许多矩阵确实可以用低秩矩阵很好地近似。
秩（r）的选择是一门实践艺术。笔记可能给出一个范围（如4, 8, 16, 64），但面试官想知道你的思考。
- 起始点：对于70亿参数模型，通常从r=8开始尝试。对于更大模型（如700亿），可以尝试r=16或32。
- 调整策略：r越大，表征能力越强，但参数量和过拟合风险也增加。这是一个权衡。一个实用的方法是进行超参数扫描：在一个小验证集上，尝试r=4,8,16,32。观察验证集损失和下游任务指标。通常会发现，在某个r之后，指标提升变得不明显，这个拐点就是性价比最高的点。
- 经验法则：对于指令微调（Instruction Tuning），较小的r（如8）通常足够。对于领域适配（Domain Adaptation），可能需要稍大的r（如16）来捕捉更复杂的领域知识。
Alpha参数的作用与缩放：LoRA最终应用的更新是 ΔW * (alpha / r)。这里的alpha是一个缩放超参数。固定alpha/r这个比例更为关键。例如，你设置r=8, alpha=16，那么缩放比例为2。如果你后来想尝试r=16，为了保持相同的缩放幅度，你应该设置alpha=32。这可以让你在改变r时，模型更新的“强度”保持相对稳定，便于实验对比。
实操心得：将LoRA应用到所有层吗？通常只应用到注意力层的Q、K、V、O投影矩阵，以及FFN层的前两层（up和down投影）。这是效果和效率的平衡点。全应用（包括嵌入层、层归一化）可能带来微乎其微的提升，但显著增加参数量。一个常见的坑是：在加载多个LoRA权重进行合并或切换时，要确保基础模型一致，并且注意不同框架（如PEFT库和vLLM）对LoRA权重命名和格式的细微差别，否则会导致加载失败。

3.3 RAG系统优化：超越基础的检索与生成

问题：描述一个RAG系统的基本流程。如何评估和优化RAG系统的效果？

基础解答：RAG流程：1) 文档切分与向量化入库；2) 用户查询时，将其向量化并在向量库中进行相似性检索；3) 将检索到的Top-K文本片段与问题一起拼接成提示词（Prompt），输入LLM生成答案。优化可能涉及检索器、提示工程和重排序。

深度延伸与面试应对：

一个生产级的RAG系统远不止于此。以下是需要掌握的进阶知识点：

检索阶段的高级策略：
- 混合检索（Hybrid Search）：单纯依靠稠密向量检索（如用BERT嵌入）可能错过关键词完全匹配的重要片段。结合稀疏检索（如BM25）可以取长补短。具体做法是分别用两种方法检索，然后对得分进行加权融合（如 Reciprocal Rank Fusion）。
- 多向量检索：不对整个文档块用一个向量表示，而是对块内的每个句子或关键短语分别生成向量。检索时，查询与这些子向量匹配，然后聚合回文档块级别。这能提升细粒度匹配的精度。
- 查询转换（Query Transformation）：原始用户查询可能模糊。可以先用一个小LLM对查询进行改写（Query Rewriting）、扩展（Query Expansion）或分解（Query Decomposition），生成多个更易检索的查询。
上下文管理与提示工程：
- 上下文窗口的“诅咒”：检索到的片段可能很长，挤占LLM生成答案的空间。需要智能截断或摘要。例如，可以用一个更小的模型先对检索到的长文档进行摘要，再将摘要喂给主LLM。
- 提示词模板设计：一个健壮的模板应包含：系统角色指令、检索到的上下文（明确标注来源）、用户问题，以及要求模型基于上下文回答、并注明“根据以上信息无法回答”的指令。例如：
```
你是一个专业的助手，请严格根据提供的参考资料回答问题。 参考资料： [1] 内容A... [2] 内容B... 问题：{用户问题} 请根据参考资料回答。如果资料中没有相关信息，请明确告知“根据现有资料无法回答该问题”。
```
评估体系：不能只看最终答案的对错。
- 检索相关度（Retrieval Relevance）：人工或用小模型标注检索出的片段与问题的相关度（如0-5分）。
- 答案忠实度（Answer Faithfulness）：生成的答案是否严格基于提供的上下文，有没有“胡编乱造”（幻觉）。
- 答案相关性（Answer Relevance）：答案是否直接回答了问题。
- 工具使用：可以利用GPT-4作为裁判，通过设计特定的提示词，让它从以上几个维度对输入输出进行评分。
一个常见的性能陷阱：向量数据库的索引类型选择。对于千万级以上的文档，使用暴力搜索（Flat Index）是不可行的。必须使用近似最近邻（ANN）索引，如HNSW、IVF-Flat等。HNSW（Hierarchical Navigable Small World）因其高召回率和较快的速度成为主流选择，但其构建索引较慢且内存占用高。IVF（Inverted File Index）系列构建快、内存占用小，但需要训练，且参数（nlist, nprobe）需要仔细调优。选择时需权衡数据规模、精度要求、查询QPS和硬件资源。

4. 工程实践：从模型量化到推理部署全链路

4.1 模型量化实战指南

量化是将模型权重和激活值从高精度（如FP16）转换为低精度（如INT8, INT4）的过程，能显著减少模型内存占用和加速推理。

1. 量化方法选型：

动态量化（Post-Training Dynamic Quantization）：将权重提前量化，激活值在推理时动态量化。实现简单，但对激活值动态范围的估计可能不准，精度损失相对较大，常用于对延迟要求高、精度要求稍低的场景。
静态量化（Post-Training Static Quantization）：需要一个小规模的校准数据集。在校准过程中，观察激活值的分布，确定最佳的缩放因子（scale）和零点（zero point）。精度通常优于动态量化，是生产环境更常用的方案。
量化感知训练（Quantization-Aware Training, QAT）：在模型训练（或微调）的前向传播中模拟量化效应，让模型在训练阶段就“适应”低精度。这是精度保持最好的方法，但需要额外的训练开销。

2. 主流工具与实操：

GPTQ & AWQ（权重仅量化）：这类方法专注于对权重进行精确的逐层量化，通常能实现极高的压缩率（如4比特），且对精度损失控制得很好。使用起来非常方便，社区提供了大量已经量化好的模型（如TheBloke发布的模型）。实操命令示例（使用AutoGPTQ）：

# 加载并量化模型 from transformers import AutoModelForCausalLM, AutoTokenizer from auto_gptq import AutoGPTQForCausalLM model_name = "meta-llama/Llama-2-7b-chat-hf" quantized_model_dir = "./llama-2-7b-chat-gptq-4bit" # 使用GPTQ进行4比特量化 model = AutoGPTQForCausalLM.from_quantized( model_name, model_basename="model", # 量化后模型的文件名前缀 use_safetensors=True, trust_remote_code=False, device="cuda:0", use_triton=False, # 是否使用Triton后端加速 quantize_config=None # 使用默认配置 )

bitsandbytes（BNB）：这是一个集成在Hugging Facetransformers库中的量化库，支持8位和4位量化。它最大的优点是可以在加载模型时动态量化，无需预先准备量化好的模型文件，非常适合快速实验和内存受限的环境。

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig # 配置4位量化 bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_quant_type="nf4", # 使用NF4数据类型，效果更好 bnb_4bit_use_double_quant=True, # 启用双重量化，进一步节省内存 bnb_4bit_compute_dtype=torch.bfloat16 # 计算时使用BF16 ) model = AutoModelForCausalLM.from_pretrained( "meta-llama/Llama-2-7b-chat-hf", quantization_config=bnb_config, device_map="auto" # 自动将模型层分配到可用设备上 )

注意事项：BNB的4位量化在推理时可能会比GPTQ慢一些，因为它涉及动态反量化。选择哪种方案，取决于你对“开箱即用”和“极致推理速度”的权衡。

4.2 高性能推理引擎vLLM深度解析

当模型量化后，下一步就是部署一个高性能的推理服务。vLLM是目前最受瞩目的推理引擎之一，其核心创新是PagedAttention和连续批处理。

1. PagedAttention：解决KV Cache内存碎片化的利器传统服务中，每个请求的键值缓存（KV Cache）在内存中连续分配。由于请求的序列长度不同、生成过程动态，会导致严重的内存碎片，就像磁盘碎片一样，总内存够但无法分配。PagedAttention借鉴了操作系统虚拟内存的分页思想：

将每个请求的KV Cache划分为固定大小的“块”（例如16个token一个块）。
这些块不需要在物理内存中连续存储，通过一个“块表”来管理逻辑块到物理块的映射。
当生成新token需要空间时，只需分配一个新的空闲块，而不是一大片连续内存。

带来的好处：内存利用率从不足50%提升到80%以上，这意味着同一张GPU卡可以同时服务更多的并发请求，极大地提升了吞吐量。

2. 连续批处理（Continuous Batching）传统的动态批处理是在请求到来时组一批，等这批全部推理完成再处理下一批。这会导致“木桶效应”——快的请求要等待慢的请求。连续批处理则不同：

它维护一个全局的请求队列。
在每次前向传播时，调度器会检查所有正在处理的请求：哪些需要新的输入（预填充阶段），哪些正在生成下一个token（解码阶段）。
它将所有当前时刻准备好计算的token组成一个新的批次进行计算。
当一个请求生成结束后，立即将其从批次中移除，并可以加入新的请求。

这种机制实现了极致的GPU利用率，特别适合交互式、流式的文本生成场景。

3. vLLM部署实操要点

# 1. 安装 pip install vllm # 2. 启动离线推理API服务器 python -m vllm.entrypoints.api_server \ --model meta-llama/Llama-2-7b-chat-hf \ --tensor-parallel-size 1 \ # 张量并行数，单卡为1 --gpu-memory-utilization 0.9 \ # GPU内存利用率目标 --max-model-len 4096 \ # 支持的最大模型长度 --served-model-name llama-2-7b # 3. 发送请求 curl http://localhost:8000/v1/completions \ -H "Content-Type: application/json" \ -d '{ "model": "llama-2-7b", "prompt": "San Francisco is a", "max_tokens": 50, "temperature": 0 }'

部署经验：

--gpu-memory-utilization参数很关键，设置得越高，vLLM会越激进地利用内存来缓存更多KV Cache以提升吞吐，但过高可能导致OOM。通常从0.8开始调整。
如果需要使用LoRA等适配器，vLLM也支持通过--enable-lora参数加载，并在请求时指定lora_name。
监控指标：除了吞吐量（tokens/s），更要关注请求延迟的百分位数（如P99），这对于用户体验至关重要。

5. 面试实战：问题排查与系统设计案例

5.1 高频问题排查速查表

在面试中，经常会被问到“如果遇到XX问题，你会如何排查？”以下是一些经典场景的排查思路：

问题现象	可能原因	排查步骤与解决方案
微调后模型输出乱码或重复	1. 学习率过高。 2. 训练数据格式错误（如prompt和completion未正确分隔）。 3. 损失函数或注意力掩码错误。	1.检查损失曲线：是否震荡或爆炸？降低学习率（如从2e-4降至1e-5）。 2.检查数据加载：随机打印几条训练样本，查看prompt-completion结构是否正确。 3.验证前向传播：用一个固定的小批次数据，关闭梯度，跑一次前向，看输出是否合理。检查因果掩码是否正确应用。
RAG系统回答出现事实性幻觉	1. 检索到的上下文不相关。 2. 上下文过长，模型未关注到关键信息。 3. 提示词未强制模型基于上下文。	1.评估检索质量：计算检索片段的MRR或NDCG@K。 2.优化检索器：尝试混合检索、重排序、查询扩展。 3.优化提示词：在system prompt中强调“仅根据给定上下文”，并采用“引用”格式要求模型标明答案出处。 4.后处理校验：用一个小型NLI（自然语言推理）模型判断生成答案是否蕴含于上下文中。
推理服务吞吐量不达标	1. 批处理大小设置不当。 2. KV Cache内存碎片严重。 3. 模型未量化，或量化方式低效。 4. 硬件瓶颈（如PCIe带宽、CPU解码）。	1.性能剖析：使用Nsight Systems或PyTorch Profiler分析耗时瓶颈是在计算、内存还是IO。 2.调整批处理：增大批处理大小以提高吞吐，但注意延迟会增加。使用连续批处理（如vLLM）。 3.应用量化：尝试INT8/INT4量化，对比精度损失和速度提升。 4.检查硬件：确保GPU利用率高，且不是PCIe传输（如数据从CPU到GPU）成为瓶颈。
多轮对话中模型遗忘上下文	1. 对话历史未正确传入模型。 2. 上下文长度超出模型限制，历史被截断。 3. 位置编码外推能力差。	1.检查对话格式：确保将完整的对话历史（user/assistant轮次）按模板拼接。 2.管理上下文：实现一个滑动窗口或总结机制，当对话过长时，优先保留最近对话，或让模型自行总结之前的历史。 3.考虑长上下文模型：换用支持更长上下文（如128K）的模型，或使用位置编码外推技术（如NTK-aware scaling）。

5.2 系统设计案例：设计一个企业级知识库问答系统

这是LLM应用面试的终极问题，考察综合能力。你可以按以下结构阐述：

第一步：需求澄清与目标定义

场景：企业内部，员工通过自然语言查询产品手册、技术文档、规章制度。
核心需求：回答准确（高忠实度）、响应快（低延迟）、支持多轮、成本可控。
非功能需求：数据安全（模型与数据不外泄）、可扩展性、易维护。

第二步：整体架构设计提出一个分层架构：

数据预处理层：原始文档（PDF/Word/网页） -> 文本提取 -> 智能切分（按章节/语义） -> 文本清洗 -> 向量化（嵌入模型） -> 存入向量数据库。
服务层：
- 查询处理：接收用户问题 -> 查询改写/扩展 -> 向量/关键词混合检索 -> 重排序 -> 构建Prompt。
- 推理引擎：加载量化后的LLM（如Llama 3 8B 4bit GPTQ），通过vLLM提供服务，支持连续批处理。
- 对话管理：维护会话状态，管理对话历史，处理上下文截断或总结。
评估与运维层：日志记录、性能监控（延迟、吞吐）、效果评估（定期抽样人工评估+自动忠实度打分）、数据飞轮（将用户反馈的bad case加入后续优化数据）。

第三步：核心组件技术选型与理由

嵌入模型：选用BGE-M3或text-embedding-3-small。理由：在中文场景下评测效果好，支持多向量检索，且尺寸适中。
向量数据库：选用Chroma（轻量、易集成）或Qdrant（云原生、功能全）。生产环境若数据量大、要求高可用，考虑Milvus或Elasticsearch with vector plugin。
大语言模型：选用Llama 3 8B Instruct（开源、性能好）或Qwen 1.5 7B（中文优化）。通过GPTQ量化至4比特，在单张A10/A100上部署。
推理框架：vLLM。理由：PagedAttention和连续批处理能极大提升吞吐和降低延迟，社区活跃。
微调方案：初期使用Prompt Engineering + RAG。积累一定领域问答对后，采用LoRA对基础模型进行轻量微调，使其更适应企业文档的语言风格和领域术语。