当前位置：首页 > news >正文

联邦学习与RAG融合：构建隐私保护的跨机构智能检索系统

news 2026/5/13 3:33:12

1. 项目概述与核心价值

最近在折腾一个跨机构文档智能检索的原型，核心需求是：在不共享原始数据的前提下，让多个参与方（比如几家医院、几个研究实验室）能够联合起来，构建一个强大的、统一的文档知识库，并实现高效的语义检索。这听起来有点像“既要马儿跑，又要马儿不吃草”——既要享受集中化大模型带来的精准语义理解能力，又要严格遵守数据隐私法规，不能把各家的敏感文档上传到中心服务器。

正是在这个背景下，我深度研究并实践了由Vector Institute开源的fed-rag项目。这个项目精准地切中了当前企业级AI落地的一个核心痛点：如何在保护数据隐私的前提下，实现知识的有效聚合与利用。fed-rag这个名字就很有意思，它是“Federated”（联邦学习）和“RAG”（检索增强生成）两个热门技术方向的结合体。简单来说，它的目标不是训练一个通用的模型，而是构建一个“联邦化”的检索系统。每个参与方在本地用自己的私有数据训练一个轻量级的“适配器”（比如一个文本嵌入模型），然后将这个适配器的参数，而不是原始数据，安全地聚合到一个中心服务器。最终，中心服务器拥有一个融合了所有参与方知识分布的、更强的嵌入模型，用于对所有参与方的文档进行统一的向量化索引和检索。

这解决了什么问题呢？想象一下，几家金融机构想联合反欺诈，但谁也不能把自己的客户交易记录给别人看。或者几家医院想共建一个医疗问答系统，但患者的电子病历是绝对隐私。fed-rag提供了一条可行的技术路径：数据不动，模型动。每个机构的数据永远留在自己的防火墙内，只有模型的“经验”（参数更新）被加密、聚合，从而在全局层面提升检索能力。对于我这样的技术实践者而言，它的价值在于提供了一个从理论到实践的完整参考框架，涵盖了联邦学习框架集成、异构数据处理、安全聚合协议实现以及最终RAG服务部署的全链路。

2. 核心架构与设计思路拆解

2.1 联邦学习与RAG的融合逻辑

传统的RAG系统流程很清晰：收集文档 -> 切分文本块 -> 用嵌入模型转为向量 -> 存入向量数据库 -> 用户提问时，用同样的嵌入模型将问题转为向量，在数据库中检索最相似的文本块 -> 将检索结果和问题一起交给大语言模型生成答案。这里的核心是那个嵌入模型，它的质量直接决定了检索的准确性。

fed-rag的创新点在于，它认为这个嵌入模型不应该由一个中心机构用有限的公开数据训练，而应该由所有数据持有方共同“培育”。其融合逻辑可以拆解为以下几步：

本地训练：每个客户端（数据持有方）使用自己本地的私有文档数据，对一个基础的预训练嵌入模型（如BGE、E5等）进行微调。这个微调过程是标准的监督学习或对比学习，目的是让模型更“懂”自己领域数据的语义分布。例如，医院的数据微调后，模型会对“心肌梗死”、“冠状动脉造影”等医疗术语的语义关系更敏感。
参数上传：训练完成后，客户端不发送任何原始数据，只将微调后的模型参数（通常是模型最后一两层或特定适配层的参数）进行加密，然后上传到中央服务器。
安全聚合：中央服务器收集到所有客户端的参数更新后，使用联邦学习中的经典算法（如FedAvg）进行加权平均，得到一个新的、融合了所有客户端知识的全局模型参数。为了增强安全性，项目通常会集成如差分隐私或安全多方计算技术，确保服务器也无法从聚合后的参数中反推出任何单个客户端的原始数据信息。
模型下发与同步：聚合后的新全局参数被下发给所有客户端。客户端用这个新参数更新自己本地的模型，然后可以开始新一轮的本地训练。如此迭代，全局嵌入模型的能力在每一轮通信中不断增强。
联邦检索：在检索阶段，一种方案是中心服务器持有最终的全局嵌入模型。当用户发起查询时，查询被发送到中心，用全局模型向量化，然后这个查询向量被广播到所有客户端。各客户端用本地的嵌入模型将自己的文档向量化（或使用预先用全局模型生成的向量索引），并在本地进行相似度计算，只将最相关的几个文档块（或它们的ID和分数）返回给中心服务器汇总。另一种更彻底的联邦方案是，检索过程也完全分布式，中心服务器只做查询路由和结果融合。

注意：fed-rag项目通常更侧重于前4步，即“联邦训练出一个更好的嵌入模型”。第5步的联邦检索实现复杂度较高，在初期原型中，更常见的做法是，训练完成后，各方向中心服务器提交用最终全局模型生成的文档向量，由中心统一构建索引并提供检索服务。这虽然要求上传向量，但向量本身是模型的输出，相比原始文本，其包含的隐私信息已通过模型和差分隐私得到了极大保护。

2.2 技术栈选型与考量

fed-rag不是一个从零造轮子的项目，它更像一个“胶水”项目，巧妙地整合了多个成熟的开源生态。理解它的技术栈选型，就能理解其设计哲学。

联邦学习框架：Flower。这是项目的默认选择，也是我认为非常明智的一点。Flower的设计非常优雅，它将联邦学习中的服务器和客户端抽象为独立的、可配置的组件，通信基于gRPC，支持多种机器学习框架（PyTorch, TensorFlow等）。相比于FATE等更重型的框架，Flower更轻量、更灵活，非常适合快速构建研究原型和中等规模的实验。它允许你非常精细地控制联邦学习的每一轮（Round）中，服务器和客户端的行为（策略），例如如何选择客户端、如何聚合参数、如何处理客户端掉线等。
嵌入模型：Sentence Transformers。这是目前构建文本嵌入事实上的标准库。它基于Hugging Face Transformers，提供了大量预训练好的高质量双塔编码模型（如all-MiniLM-L6-v2,BGE系列，E5系列），并且封装了方便的微调和推理接口。fed-rag直接利用这个生态，使得用户能够轻松替换不同的基础模型，以适应不同的语言和领域。
向量数据库：Chroma / FAISS。项目示例中常使用Chroma，因为它简单易用，纯Python实现，适合原型开发。在实际生产部署中，可能会根据数据规模、性能要求和运维复杂度，切换到FAISS（Facebook开源的相似性搜索库，性能极高）、Weaviate或Qdrant等专业向量数据库。这里的选择是解耦的，fed-rag的核心产出是那个训练好的嵌入模型，至于用哪个向量数据库存向量、做检索，是下游应用的决定。
大语言模型：通过API集成。fed-rag主要解决“检索”部分，对于“生成”部分，它通常设计为与OpenAI GPT、Anthropic Claude或开源LLM（如Llama系列、ChatGLM）的API进行对接。这意味着，当你获得了最相关的文档片段后，可以将其作为上下文，连同用户问题，发送给LLM生成最终答案。这种设计保持了系统的模块化和灵活性。

为什么这么选？核心思路是“站在巨人的肩膀上”。Flower解决了联邦的通信和协调难题，Sentence Transformers解决了嵌入模型的基础能力，向量数据库和LLM API都是成熟的外部服务。fed-rag的独创性在于定义了这些组件在隐私保护场景下的协同工作流和数据流，并实现了关键的安全聚合与训练逻辑。

3. 环境搭建与核心配置详解

3.1 基础环境准备

开始动手前，我们需要模拟一个最简单的联邦环境：一个服务器（Server）和两个客户端（Client）。为了简化，我们可以在同一台机器上，用不同的端口和进程来模拟。这是学习和调试的最佳方式。

首先，创建一个干净的Python虚拟环境并安装核心依赖。我强烈建议使用conda或venv来管理环境，避免包冲突。

# 创建并激活虚拟环境 (以conda为例) conda create -n fed-rag python=3.9 conda activate fed-rag # 安装核心库 pip install flwr==1.8.0 # Flower联邦学习框架 pip install sentence-transformers==2.2.2 # 嵌入模型库 pip install datasets # 用于加载示例数据（如果需要） pip install chromadb # 向量数据库（用于示例） pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 根据你的CUDA版本选择

fed-rag项目本身可能还依赖其他工具，如transformers,numpy,pandas等，上述安装基本已覆盖。务必注意版本兼容性，尤其是flwr和sentence-transformers的版本，最好参照项目requirements.txt（如果有的话）。

3.2 项目结构与关键文件解析

克隆fed-rag仓库后，其目录结构通常如下（我根据典型开源项目结构进行了归纳）：

fed-rag/ ├── server.py # 联邦学习服务器主逻辑 ├── client.py # 联邦学习客户端主逻辑 ├── utils/ │ ├── data_loader.py # 数据加载与预处理工具 │ ├── model_utils.py # 模型定义、保存、加载工具 │ └── aggregation.py # 安全聚合算法实现（如FedAvg, DP-FedAvg） ├── config/ │ └── config.yaml # 配置文件，定义模型、数据、训练参数 ├── data/ # 示例数据或数据加载脚本 ├── scripts/ │ ├── run_server.sh # 启动服务器脚本 │ └── run_client.sh # 启动客户端脚本 └── requirements.txt # 项目依赖

server.py：这是大脑。它使用Flower的ServerApp或start_server函数启动。核心是定义一个FedAvg（或自定义）策略，指定评估函数、参与方选择策略等。它会等待客户端连接，分发全局模型，收集参数更新，进行聚合，然后下发新的全局模型。
client.py：这是手脚。每个客户端实例运行一份。它需要：
1. 加载本地私有数据（从data/目录或本地数据库）。
2. 定义本地模型（通常继承sentence_transformers.SentenceTransformer）。
3. 实现Flower要求的Client接口，包括fit（本地训练）、evaluate（本地评估）等方法。在fit方法中，它会用本地数据对模型进行几个epoch的训练，然后返回模型参数的更新量。
config.yaml：项目的控制中心。好的配置管理能极大提升实验效率。一个典型的配置如下：

# config/config.yaml fed: num_rounds: 10 # 联邦训练总轮数 fraction_fit: 1.0 # 每轮参与训练的客户端比例 min_fit_clients: 2 # 每轮最少需要的客户端数 fraction_evaluate: 0.5 # 每轮参与评估的客户端比例 min_evaluate_clients: 1 model: base_model: BAAI/bge-small-en-v1.5 # 基础预训练模型 trainable_layers: [‘pooler’, ‘encoder.layer.11’] # 指定微调哪些层 output_dim: 384 # 嵌入向量维度 data: local_data_path: ./data/client_{cid} # 客户端数据路径模板 chunk_size: 512 # 文本切分大小 chunk_overlap: 50 # 文本切分重叠 train: local_epochs: 2 # 客户端本地训练epoch数 batch_size: 16 learning_rate: 2e-5 use_dp: false # 是否启用差分隐私 dp_noise_multiplier: 1.0 # 差分隐私噪声乘子 dp_l2_norm_clip: 1.0 # 梯度裁剪阈值

通过配置文件，我们可以轻松切换模型、调整联邦学习参数、控制隐私预算，而无需修改代码。

4. 联邦训练流程的实操实现

4.1 客户端本地训练的实现细节

客户端的核心任务是进行有效的本地微调。这里有几个关键点需要注意：

1. 数据准备与负采样：对于嵌入模型训练，尤其是对比学习，高质量的负样本至关重要。在RAG场景下，正样本是（查询，相关文档）。负样本可以是：

随机负样本：从同一批次的其它查询的文档中随机选取。
困难负样本：与查询语义相似但不相关的文档（这需要额外的挖掘，如使用一个弱模型进行初步检索，取排名靠前但不正确的文档）。在fed-rag的初期，使用随机负样本是简单有效的起点。数据应被组织成(anchor, positive, negative)的三元组形式，或者(query, positive_doc)的配对形式，由损失函数自动构造负样本。

2. 模型定义与参数冻结：我们不是从头训练，而是微调。通常的做法是冻结基础模型的大部分层，只解锁最后几层或添加一个适配层（Adapter）。这既能加快训练、减少通信量，也能在一定程度上防止灾难性遗忘，保留模型的基础语言能力。

# 在 client.py 或 model_utils.py 中 from sentence_transformers import SentenceTransformer, models def get_model(model_name, trainable_layers): # 加载预训练模型 word_embedding_model = models.Transformer(model_name) pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension()) model = SentenceTransformer(modules=[word_embedding_model, pooling_model]) # 冻结所有参数 for param in model.parameters(): param.requires_grad = False # 只解冻指定层 for layer_name in trainable_layers: # 这里需要根据模型结构具体解析layer_name，例如‘encoder.layer.11’ # 假设我们有一个工具函数来获取指定层 layer = get_layer_by_name(model, layer_name) if layer: for param in layer.parameters(): param.requires_grad = True return model

3. 损失函数选择：对于句子对任务，MultipleNegativesRankingLoss是一个常用且效果不错的选择，它假设一个批次内，对于每个查询，只有一个正样本，其他都是负样本。CosineSimilarityLoss直接优化余弦相似度也很直接。在fed-rag中，可以根据数据情况选择。

4. 本地训练循环：在Flower客户端的fit方法中，我们实现标准的训练循环，但要注意，我们训练的是从服务器接收到的全局模型副本。

# client.py 中 fit 方法的部分伪代码 def fit(self, parameters, config): # 1. 用服务器下发的参数更新本地模型 set_model_params(self.model, parameters) # 2. 准备本地数据加载器 train_loader = get_local_dataloader(self.client_id) # 3. 配置优化器（只更新可训练参数） optimizer = torch.optim.AdamW( filter(lambda p: p.requires_grad, self.model.parameters()), lr=config[“learning_rate”] ) # 4. 训练循环 self.model.train() for epoch in range(config[“local_epochs”]): for batch in train_loader: optimizer.zero_grad() # 假设batch是 (anchors, positives) 对 embeddings_a = self.model.encode(batch[‘anchors’], convert_to_tensor=True) embeddings_p = self.model.encode(batch[‘positives’], convert_to_tensor=True) # 计算损失，例如使用余弦相似度损失 loss = 1 - F.cosine_similarity(embeddings_a, embeddings_p).mean() loss.backward() # 如果启用差分隐私，在这里进行梯度裁剪和加噪 if config[“use_dp”]: clip_grad_norm_(self.model.parameters(), max_norm=config[“dp_l2_norm_clip”]) add_noise_to_gradients(self.model, config[“dp_noise_multiplier”]) optimizer.step() # 5. 返回更新后的参数、训练样本数等信息 updated_params = get_model_params(self.model) return updated_params, len(train_loader.dataset), {}

4.2 服务器端聚合策略与安全增强

服务器端的核心是聚合策略。Flower内置了FedAvg，但我们需要理解其细节，并考虑安全增强。

标准FedAvg：聚合公式很简单：w_global = Σ (n_k / n) * w_k。其中，w_k是第k个客户端的模型参数，n_k是该客户端本地数据量，n是所有参与客户端的总数据量。这给了数据量大的客户端更大的权重。在Flower中，这通过aggregate_fit函数实现。

差分隐私FedAvg：这是fed-rag项目可能实现的关键隐私保护技术。其核心思想是在客户端上传参数更新前，对更新量（梯度或参数差值）进行两步操作：

裁剪：将每个客户端的更新向量的L2范数裁剪到一个阈值C。这限制了单个客户端对全局模型的潜在影响，是满足DP定义的前提。
加噪：在裁剪后的更新上，添加满足高斯分布或拉普拉斯分布的随机噪声。噪声的尺度由隐私预算epsilon和噪声乘子sigma控制。

# utils/aggregation.py 中的简化示例 def dp_fedavg(updates, weights, noise_multiplier, l2_norm_clip): """ updates: 客户端参数更新列表 [update1, update2, ...] weights: 客户端权重列表（如数据量比例） """ aggregated_update = [] # 假设updates是列表，每个元素是一个参数张量的列表 num_clients = len(updates) sensitivity = 2 * l2_norm_clip # 对于梯度，经过裁剪后敏感度 for i in range(len(updates[0])): # 遍历每一层参数 layer_updates = [update[i] for update in updates] # 加权平均 avg_update = sum(w * u for w, u in zip(weights, layer_updates)) # 添加高斯噪声 noise_stddev = noise_multiplier * sensitivity noise = torch.randn_like(avg_update) * noise_stddev dp_avg_update = avg_update + noise / num_clients # 噪声随客户端数增加而稀释 aggregated_update.append(dp_avg_update) return aggregated_update

在服务器策略中，我们需要在收集到客户端更新后，调用这个安全的聚合函数，而不是简单的平均。Flower允许我们通过自定义Strategy类来轻松实现这一点。

实操心得：差分隐私的引入是一把双刃剑。噪声越大，隐私保护越强，但模型性能下降也越严重（噪声会淹没有用的信号）。l2_norm_clip和noise_multiplier是两个关键超参数，需要仔细调优。通常从一个较小的裁剪阈值（如1.0）和中等噪声（如0.5-1.0）开始，在验证集上观察性能损失。隐私预算epsilon是一个累积量，需要跟踪每一轮训练消耗的预算，确保总预算不超标。

5. 从联邦模型到RAG服务的部署链路

联邦训练结束后，我们得到了一个增强的全局嵌入模型。但这还不是终点，我们需要将它集成到一个可用的RAG服务中。

5.1 文档索引的构建

假设我们采用“中心化索引”的方案（各客户端上传向量到中心）。部署流程如下：

模型分发：将最终训练好的全局嵌入模型（model_final.safetensors或pytorch_model.bin）分发给所有客户端，或部署在中心服务器。
分布式向量化：每个客户端使用这个相同的全局模型，对自己的私有文档进行预处理（切块）和向量化。这一步完全在本地完成，不涉及原始数据外泄。
向量上传：客户端将生成的向量（以及对应的文本块ID和可能的元数据）加密后上传到中心服务器的向量数据库。这里上传的是向量，不是原文。虽然向量理论上可能泄露一些信息，但结合了联邦训练和可能的差分隐私，风险已大大降低。对于极度敏感的场景，可以考虑同态加密向量后再上传，但这会极大增加计算和存储开销。
中心索引：中心服务器接收所有向量，将其插入到统一的向量数据库（如Chroma、Qdrant）中，构建一个全局的、融合了所有参与方知识的索引。

5.2 检索与生成服务搭建

索引构建完成后，就可以提供标准的RAG服务了：

查询处理：用户发起查询。查询请求到达中心服务器的API网关。
查询向量化：API服务使用同一个全局嵌入模型，将用户查询转换为查询向量。
语义检索：将查询向量发送到向量数据库，执行近似最近邻搜索，召回Top-K个最相关的文档片段（向量）。
上下文组装：将召回到的文档片段文本（存储在向量数据库或关联的外部存储中）组装成提示词的上下文。
LLM生成：将“上下文 + 用户问题”构成的完整提示，发送给后端的大语言模型（如通过OpenAI API或本地部署的Llama），生成最终答案。
返回结果：将LLM生成的答案返回给用户。

整个流程中，只有第3步的检索和第5步的生成涉及中心化服务。原始数据（文档块文本）可以存储在客户端，只将向量和文本块的ID传到中心。当检索到相关ID后，中心服务器可以向对应的客户端请求获取具体的文本内容（如果需要的话），这可以实现更细粒度的控制，但延迟会增加。更常见的做法是将文本块也存储在中心的数据库，因为经过切分和向量化后的文本块，其隐私风险已经过评估和缓解。

5.3 性能优化与扩展考量

当参与方和数据量增长时，需要考虑以下问题：

通信效率：模型参数可能很大。可以采用模型压缩（如量化、剪枝）和通信压缩（如梯度稀疏化、低精度传输）技术来减少每轮通信的数据量。
客户端异构性：不同客户端的计算能力、网络状况、数据分布（非独立同分布，Non-IID）差异很大。需要设计自适应策略，例如为弱客户端分配更少的本地训练轮数，或使用联邦优化算法（如FedProx）来缓解Non-IID带来的性能下降。
异步联邦：标准的同步联邦（等所有客户端完成再聚合）容易受到慢客户端（Straggler）的影响。可以考虑异步联邦学习，服务器一旦收到部分客户端的更新就进行聚合，提高整体效率。
索引更新：当各客户端有新增文档时，需要重新训练模型和更新索引吗？完全重训练成本高。可以采用增量学习或持续学习的思路，定期（如每周）进行一轮联邦微调，然后增量更新向量索引。对于实时性要求不高的场景，定期全量更新也是可接受的方案。

6. 常见问题、调试技巧与避坑指南

在实际部署和调试fed-rag这类系统时，我踩过不少坑，这里总结一些典型问题和解决思路。

6.1 训练过程不稳定或发散

现象：全局模型准确率震荡剧烈，甚至随着训练轮次下降。
排查思路：
1. 检查本地数据质量：确保每个客户端本地的(query, positive)配对是正确的。错误的数据标注是导致模型学偏的首要原因。可以抽样检查每个客户端的数据。
2. 调整学习率：联邦学习中的最优学习率通常比集中式训练要小。因为每个客户端只看到局部数据，大的更新步长容易导致“漂移”。尝试将学习率降低一个数量级（例如从2e-5降到5e-6）。
3. 增加本地训练轮数：如果本地epoch太少（比如1），客户端可能还没学到自己数据的有效特征就上传了噪音很大的更新。尝试增加到2-5个epoch。
4. 引入梯度裁剪：即使不用差分隐私，也对本地训练的梯度进行裁剪（clip_grad_norm_），可以防止个别异常样本导致更新爆炸，稳定训练过程。
5. 验证客户端更新：在服务器端，记录并可视化每个客户端上传的参数更新的范数。如果某个客户端的更新范数异常大，可能是该客户端数据异常或训练出了问题，可以考虑在聚合时降低其权重或将其剔除。

6.2 隐私与效用难以权衡

现象：启用差分隐私后，模型性能（检索精度）大幅下降。
解决策略：
1. 从宽松开始：初期调试时，先将差分隐私参数设置得非常宽松（noise_multiplier很大，如10.0；l2_norm_clip也较大，如5.0），确保模型能正常训练。然后逐步收紧隐私约束，观察性能曲线，找到可接受的平衡点。
2. 调整模型架构：差分隐私对深层、大参数量的模型影响更大。考虑使用更小的基础模型，或者冻结更多的底层，只微调顶部的少量参数。减少可训练参数数量能有效降低添加噪声带来的影响。
3. 增加客户端数量和轮次：差分隐私的噪声影响可以被更多的客户端和更多的训练轮次平均掉。在固定总隐私预算下，增加客户端数量可以降低每轮每个客户端分配的噪声。更多的训练轮次也让模型有机会从噪声中慢慢学习到有效信号。
4. 使用高级DP算法：探索更先进的差分隐私算法，如DP-SGD的变种，或者结合隐私放大技术（如通过采样）。

6.3 客户端掉线与通信故障

现象：服务器日志显示客户端连接中断，训练轮次无法完成。
Flower的应对机制：Flower的Server和Strategy已经内置了容错处理。在配置中，min_fit_clients和min_evaluate_clients是关键参数。例如，你设置了min_fit_clients=3，但有5个客户端注册。如果某一轮只有2个客户端完成了训练并返回结果，服务器会一直等待，直到超时。你可以设置一个合理的round_timeout。
实操建议：
1. 设置合理的超时：在server.py的start_server中配置round_timeout参数，例如round_timeout=60（秒）。超时后，服务器将聚合已收到的更新，继续下一轮。
2. 客户端重连逻辑：在客户端脚本中实现简单的重连和断点续训机制。如果连接失败，等待一段时间后重试。客户端本地应定期保存检查点，以便在重启后能从上一轮结束的状态继续训练。
3. 日志与监控：为服务器和客户端添加详细的日志记录，包括连接状态、训练进度、通信数据大小等。这有助于快速定位网络或资源问题。

6.4 检索效果提升缓慢

现象：联邦训练后的模型，在全局测试集上的检索效果提升不如预期，甚至不如直接用原始预训练模型。
深度分析：
1. 数据异构性（Non-IID）：这是联邦学习最大的挑战。如果医院A的数据全是心血管疾病，医院B的数据全是骨科，那么它们本地训练出的模型更新方向可能差异很大，简单平均（FedAvg）可能会产生一个“四不像”的全局模型。可以尝试：
  - 使用FedProx等算法：在本地损失函数中加入一个正则项，惩罚本地模型与全局模型的偏离，强制客户端更新不要偏离太远。
  - 个性化联邦学习：不追求一个统一的全局模型，而是允许每个客户端在全局模型的基础上，发展出自己的个性化模型。fed-rag可以扩展为每个客户端拥有一个“全局模型+个性化适配器”的结构。
2. 评估方式问题：确保你的评估数据集是真正“全局”的，覆盖所有参与方的数据分布。如果评估集只偏向某一方，那么性能指标可能不具代表性。构建一个平衡的、跨领域的测试集至关重要。
3. 任务定义是否清晰：RAG的检索目标是什么？是直接回答事实性问题，还是需要理解复杂意图？不同的目标可能需要不同的微调数据构造方式。例如，对于事实性问答，(问题，答案所在段落)是好的正样本。对于对话式检索，可能需要(多轮对话历史，下一句合适的回复依据)作为正样本。重新审视你的数据标注和损失函数是否与最终任务对齐。