当前位置：首页 > news >正文

【零基础实战】FAISS 向量检索全流程通关：环境搭建 + 文本向量化 + 相似度检索，附生产级完整代码

news 2026/6/26 18:29:58

痛点引入

很多开发者上手 RAG 私有知识库、语义搜索、智能问答系统时，第一步就卡在向量检索环节：

云向量数据库按调用量收费，个人项目、小型 Demo 不想额外付费；
跟着零散教程装 FAISS，要么导入报错，要么向量维度不匹配直接崩溃；
检索结果驴唇不对马嘴，不知道是模型选错了还是索引建错了；
只会基础的增查操作，不知道怎么绑定业务 ID、怎么持久化、怎么处理增量数据。

本文带你从零跑通 FAISS 全链路落地，从环境安装、中文向量化、索引构建、相似度检索到持久化封装，所有代码均实测可运行，文末附带生产级工具类，复制即可集成到自己的项目中，新手也能一键落地语义检索能力。

📌 极简原理说明（1 分钟搞懂）

不堆砌算法公式，只讲落地必须掌握的核心逻辑：

向量检索的本质把自然语言文本通过 Embedding（嵌入）模型转换成固定长度的数字数组（向量），语义越接近的文本，对应向量在高维空间中的距离越近。通过计算向量距离，就能实现「按语义匹配内容」，比传统关键词匹配更智能。
FAISS 的核心优势FAISS 是 Meta 开源的高性能向量检索工具库，也是本地向量检索的事实标准：

速度极快：百万级向量检索可做到毫秒级响应，比普通循环暴力计算快上百倍；
纯本地运行：无网络依赖、无调用费用，数据完全可控；
生态完善：Python/C++ 双接口，完美适配 LangChain 等主流 AI 框架，适配绝大多数 AI 应用场景。

两种相似度度量通俗对比| 度量方式 | 数值范围 | 核心特点 | 适用场景 | |---------|----------|----------|----------| | L2 欧氏距离 | 0 ~ 正无穷，越小越相似 | 计算空间直线距离，对文本长度敏感 | 短文本精确匹配、聚类场景 | | 余弦相似度 | -1 ~ 1，越接近 1 越相似 | 关注语义方向，忽略文本长度差异 | 通用语义检索、长文本匹配 |

日常语义检索场景两者效果差异不大，通用知识库推荐优先使用余弦相似度。

完整执行链路原始文本 → 文本预处理 / 分段 → Embedding 模型转向量 → 存入 FAISS 索引 → 查询文本转向量 → FAISS 计算距离返回 TopN → 匹配原始文本输出

⚙️ 分步实操全流程

一、环境准备：依赖安装与验证

1. 版本与环境要求

Python 版本：3.8 ~ 3.12（faiss-cpu 最新版已兼容 3.12，过低版本可能安装失败）
内存要求：最低 2GB，万级向量无压力，百万级向量建议 8GB 以上
系统支持：Windows、MacOS、Linux 全平台兼容

2. 安装命令

推荐优先使用 pip 安装，安装失败可切换 conda 方式，二选一即可。

# 方式1：CPU版本（全系统兼容，新手首选，无需显卡） pip install faiss-cpu==1.8.0 sentence-transformers==2.7.0 numpy pandas # 方式2：GPU版本（需NVIDIA显卡 + CUDA环境，大数据量速度提升5~10倍） # pip install faiss-gpu==1.8.0 sentence-transformers numpy pandas # 方式3：conda安装（pip安装报错时首选，系统适配性更强） # conda install -c pytorch faiss-cpu

⚠️ 强制注意：faiss-cpu 和 faiss-gpu 不可同时安装，同时存在会导致模块导入冲突；安装前请先卸载另一个版本。

3. 安装有效性验证

安装完成后执行以下代码，确认环境正常，避免后续踩坑：

import faiss import numpy as np from sentence_transformers import SentenceTransformer print(f"FAISS版本：{faiss.__version__}") print(f"NumPy版本：{np.__version__}") # 测试基础索引创建 test_index = faiss.IndexFlatL2(128) print(f"基础索引创建成功，是否已训练：{test_index.is_trained}") print("✅ 环境验证全部通过")

能正常输出版本号即代表环境搭建成功。

二、文本向量化：中文模型选型与实操

向量化是决定检索准确率的核心环节，模型选错了，索引建得再好也没用。

1. 主流中文 Embedding 模型选型参考

整理 3 款免费可商用、本地可部署的常用模型，按需选择：

模型名称	向量维度	模型大小	核心特点	适用场景
paraphrase-multilingual-MiniLM-L12-v2	384	~120MB	多语言支持，速度极快，轻量无压力	新手入门、小体量知识库、追求速度
m3e-base	768	~400MB	中文专属优化，开源可商用，综合效果均衡	中文通用知识库、生产环境首选
bge-small-zh-v1.5	512	~130MB	中文检索榜单排名靠前，小体积高精度	追求准确率的语义检索、RAG 场景

💡 新手入门直接使用本文示例的多语言 MiniLM 模型即可，体积小、下载快，中文效果足够日常使用；生产环境推荐切换为 bge 或 m3e 系列。

2. 文本向量化完整代码

from sentence_transformers import SentenceTransformer import numpy as np # 1. 加载向量化模型，首次运行会自动下载到本地缓存 model_name = "paraphrase-multilingual-MiniLM-L12-v2" model = SentenceTransformer(model_name) # 2. 准备测试知识库文本 text_corpus = [ "Python是一种解释型、面向对象的高级编程语言，语法简洁，生态丰富", "Java是一门面向对象的静态类型编程语言，广泛应用于企业级后端开发", "FAISS是Meta公司开源的高性能向量相似度检索库，支持CPU和GPU运行", "向量数据库专门用于存储、索引和检索高维向量数据，是RAG系统的核心组件", "RAG检索增强生成技术，可以结合私有知识库提升大模型回答的准确性", "学习编程的核心方法是多动手写代码、多做实战项目、多排查解决问题", "大语言模型具备文本生成、问答对话、摘要翻译等多种自然语言处理能力" ] # 3. 批量文本向量化 # 统一转换为float32类型，适配FAISS默认精度，避免性能损耗 # 余弦相似度模式下，将normalize_embeddings设为True corpus_embeddings = model.encode( text_corpus, convert_to_numpy=True, normalize_embeddings=False ).astype('float32') # 4. 输出验证 print(f"✅ 向量化完成") print(f"文本数量：{len(text_corpus)}") print(f"向量维度：{corpus_embeddings.shape[1]}") print(f"向量数据类型：{corpus_embeddings.dtype}") print(f"向量矩阵形状：{corpus_embeddings.shape}")

🔍 优化细节：FAISS 内部默认使用 float32 单精度浮点数，手动指定astype('float32')可以避免自动转换的性能开销，是新手容易忽略的优化点。

三、FAISS 索引构建：基础版 + 自定义业务 ID 版

版本 1：基础自增 ID 索引（入门首选）

IndexFlatL2是 FAISS 最基础的精确检索索引，暴力计算所有向量距离，召回率 100%，无需训练，适合 10 万条以内的小数据量。

import faiss # 动态获取向量维度，避免硬编码出错 dimension = corpus_embeddings.shape[1] # 创建L2距离精确检索索引 index = faiss.IndexFlatL2(dimension) # 验证索引状态：Flat索引无需训练，创建即可用 print(f"索引是否需训练：{index.is_trained}") print(f"索引当前向量数：{index.ntotal}") # 向量入库 index.add(corpus_embeddings) print(f"✅ 向量入库完成，索引总向量数：{index.ntotal}")

注意：此模式下向量 ID 从 0 开始自增，和text_corpus数组下标一一对应。

版本 2：自定义业务 ID 索引（生产环境必备）

实际项目中，通常需要把向量和业务数据 ID（文档 ID、段落 ID）绑定，此时用IndexIDMap包装索引，实现自定义 ID 映射，无需额外维护数组对应关系。

import faiss import numpy as np dimension = corpus_embeddings.shape[1] # 1. 创建基础索引 base_index = faiss.IndexFlatL2(dimension) # 2. 用IDMap包装，支持自定义ID index = faiss.IndexIDMap(base_index) # 3. 自定义ID数组，长度必须和向量数量一致，类型必须为int64 custom_ids = np.array([1001, 1002, 1003, 1004, 1005, 1006, 1007], dtype='int64') # 4. 带ID添加向量 index.add_with_ids(corpus_embeddings, custom_ids) print(f"✅ 自定义ID索引构建完成，总向量数：{index.ntotal}") # 验证ID映射 test_query = model.encode(["向量数据库是什么"], convert_to_numpy=True).astype('float32') distances, ids = index.search(test_query, 1) print(f"查询返回的自定义ID：{ids[0][0]}")

💡 生产环境强烈推荐使用自定义 ID 模式，将 ID 与业务数据库主键一一对应，数据一致性更高，也支持单条向量删除操作。

四、相似度检索：基础查询 + 阈值过滤 + 余弦相似度

1. 基础 L2 距离检索

# 查询文本 query_text = "RAG技术能解决什么问题？" # 查询文本转向量，预处理逻辑必须和入库时完全一致 query_embedding = model.encode( [query_text], convert_to_numpy=True, normalize_embeddings=False ).astype('float32') # 设置返回Top3相似结果 top_k = 3 # 执行检索 # distances：距离值数组，数值越小相似度越高 # indices：对应向量的ID数组 distances, indices = index.search(query_embedding, top_k) # 格式化输出结果 print(f"🔍 查询内容：{query_text}") print("-" * 60) for rank in range(top_k): vec_id = indices[0][rank] distance = distances[0][rank] # 自增ID模式直接用下标匹配文本，自定义ID模式需用字典映射 text = text_corpus[list(custom_ids).index(vec_id)] if vec_id in custom_ids else "未知文本" print(f"排名 {rank+1} | ID: {vec_id} | L2距离: {distance:.4f}") print(f"内容：{text}\n")

2. 相似度阈值过滤（实用技巧）

实际项目中并不是所有返回结果都相关，设置阈值可以过滤掉低相似度内容，避免返回无关答案。

# L2距离阈值，数值越小要求越严格，需根据业务场景调试 distance_threshold = 15.0 # 过滤有效结果 valid_results = [] for rank in range(top_k): vec_id = indices[0][rank] distance = distances[0][rank] if distance <= distance_threshold: valid_results.append({ "id": int(vec_id), "text": text_corpus[list(custom_ids).index(vec_id)], "distance": float(distance) }) print(f"✅ 过滤后有效结果共 {len(valid_results)} 条") for res in valid_results: print(f"ID:{res['id']} | 距离:{res['distance']:.4f} | 内容：{res['text']}")

🔧 调参建议：阈值没有通用标准，和 Embedding 模型、文本长度强相关，建议用自身业务数据测试后调整；余弦相似度模式下阈值可从 0.6 起步调试。

3. 余弦相似度检索实现

余弦相似度更侧重语义方向，是通用语义检索的首选。FAISS 中只需两步即可实现：

向量化时开启向量归一化
将索引替换为内积索引IndexFlatIP

# 1. 向量化时开启归一化 corpus_embeddings_norm = model.encode( text_corpus, convert_to_numpy=True, normalize_embeddings=True ).astype('float32') # 2. 创建内积索引（IP = Inner Product） ip_index = faiss.IndexFlatIP(corpus_embeddings_norm.shape[1]) ip_index.add(corpus_embeddings_norm) # 3. 查询时同样执行归一化 query_embedding_norm = model.encode( ["什么是向量检索"], convert_to_numpy=True, normalize_embeddings=True ).astype('float32') # 4. 检索，内积值即为余弦相似度，越接近1相似度越高 sim_scores, ids = ip_index.search(query_embedding_norm, 3) print("余弦相似度检索结果：") for i in range(3): print(f"排名{i+1} | 相似度：{sim_scores[0][i]:.4f} | 内容：{text_corpus[ids[0][i]]}")

五、向量库持久化：本地保存与加载

FAISS 索引支持序列化到本地文件，重启程序无需重新构建，大幅提升复用效率。

import json # ========== 保存索引与映射到本地 ========== # 保存FAISS索引文件 faiss.write_index(index, "faiss_l2_index.index") print("✅ 索引文件已保存：faiss_l2_index.index") # 保存ID-文本映射关系 # 生产环境建议存入MySQL/SQLite等业务数据库 id_text_map = {str(cid): text for cid, text in zip(custom_ids, text_corpus)} with open("id_text_map.json", "w", encoding="utf-8") as f: json.dump(id_text_map, f, ensure_ascii=False, indent=2) print("✅ 文本映射已保存：id_text_map.json") # ========== 从本地加载索引与映射 ========== # 加载索引 loaded_index = faiss.read_index("faiss_l2_index.index") print(f"✅ 索引加载成功，当前向量数：{loaded_index.ntotal}") # 加载文本映射 with open("id_text_map.json", "r", encoding="utf-8") as f: loaded_map = json.load(f) print(f"✅ 文本映射加载成功，共 {len(loaded_map)} 条记录")

⚠️ 注意事项：
索引文件和文本映射必须同步保存 / 更新，否则会出现 ID 与文本不匹配的问题；
增量添加向量后需要重新保存索引文件，FAISS 不支持增量写入单文件；
大数据量场景可采用分片存储，避免单文件过大导致加载慢。

六、实战案例：本地 TXT 文档快速构建语义检索

手把手带你用本地文档搭建可用的语义检索工具，可直接用于个人知识库项目。

import os import faiss import numpy as np from sentence_transformers import SentenceTransformer class LocalDocRetriever: def __init__(self, model_name="paraphrase-multilingual-MiniLM-L12-v2"): self.model = SentenceTransformer(model_name) self.dimension = self.model.get_sentence_embedding_dimension() self.index = faiss.IndexFlatL2(self.dimension) self.doc_info = [] # 存储文件名、段落序号、段落内容 def load_txt_files(self, folder_path: str, chunk_size: int = 300): """ 加载指定文件夹下所有TXT文件，按固定长度切分段落 :param folder_path: TXT文件所在文件夹路径 :param chunk_size: 每个段落的字符长度 """ if not os.path.exists(folder_path): raise FileNotFoundError(f"文件夹不存在：{folder_path}") txt_files = [f for f in os.listdir(folder_path) if f.endswith(".txt")] if not txt_files: print("文件夹下未找到TXT文件") return all_chunks = [] for filename in txt_files: file_path = os.path.join(folder_path, filename) with open(file_path, "r", encoding="utf-8") as f: content = f.read() # 按字符切分，生产环境建议用语义切分工具 chunks = [content[i:i+chunk_size] for i in range(0, len(content), chunk_size)] for idx, chunk in enumerate(chunks): self.doc_info.append({ "filename": filename, "chunk_id": idx, "content": chunk.strip() }) all_chunks.append(chunk.strip()) # 批量向量化并入库 if all_chunks: embeddings = self.model.encode(all_chunks, convert_to_numpy=True).astype('float32') self.index.add(embeddings) print(f"✅ 加载完成，共处理{len(txt_files)}个文件，切分为{len(all_chunks)}个段落") def search(self, query: str, top_k: int = 3): """检索相似段落""" if self.index.ntotal == 0: return [] query_emb = self.model.encode([query], convert_to_numpy=True).astype('float32') distances, indices = self.index.search(query_emb, top_k) results = [] for i in range(top_k): idx = indices[0][i] if idx < len(self.doc_info): results.append({ "filename": self.doc_info[idx]["filename"], "content": self.doc_info[idx]["content"], "distance": float(distances[0][i]) }) return results # ---------------- 使用示例 ---------------- if __name__ == "__main__": # 提前在当前目录创建docs文件夹，放入若干TXT文档 retriever = LocalDocRetriever() retriever.load_txt_files("./docs", chunk_size=300) # 执行检索 results = retriever.search("FAISS怎么安装", top_k=2) for res in results: print(f"📄 文件：{res['filename']} | 距离：{res['distance']:.4f}") print(f"内容：{res['content']}\n")

📦 生产级完整工具类（开箱即用）

整合以上所有功能，封装成可直接集成到项目中的工具类，支持 L2 / 余弦双模式、自定义 ID、持久化、阈值过滤、向量删除。

import faiss import numpy as np import json from sentence_transformers import SentenceTransformer class FaissVectorStore: def __init__( self, model_name: str = "paraphrase-multilingual-MiniLM-L12-v2", similarity_type: str = "l2", # 可选 l2 / cosine use_custom_id: bool = False ): """ FAISS向量存储工具 :param model_name: Embedding模型名称 :param similarity_type: 相似度类型，l2距离或cosine余弦相似度 :param use_custom_id: 是否启用自定义ID """ self.model = SentenceTransformer(model_name) self.dimension = self.model.get_sentence_embedding_dimension() self.similarity_type = similarity_type self.use_custom_id = use_custom_id self.id_text_map = {} # ID到文本的映射 # 归一化配置：余弦相似度必须归一化 self.normalize = (similarity_type == "cosine") # 创建基础索引 if similarity_type == "l2": base_index = faiss.IndexFlatL2(self.dimension) else: base_index = faiss.IndexFlatIP(self.dimension) # 包装IDMap if use_custom_id: self.index = faiss.IndexIDMap(base_index) else: self.index = base_index def _text_to_embedding(self, texts: list) -> np.ndarray: """内部方法：文本转向量，统一预处理标准""" embeddings = self.model.encode( texts, convert_to_numpy=True, normalize_embeddings=self.normalize ).astype('float32') return embeddings def add_texts(self, texts: list, custom_ids: list = None) -> None: """ 批量添加文本 :param texts: 文本列表 :param custom_ids: 自定义ID列表，启用自定义ID时必填 """ embeddings = self._text_to_embedding(texts) if self.use_custom_id: if custom_ids is None or len(custom_ids) != len(texts): raise ValueError("启用自定义ID时，custom_ids长度必须与texts一致") ids_array = np.array(custom_ids, dtype='int64') self.index.add_with_ids(embeddings, ids_array) # 同步更新映射 for cid, text in zip(custom_ids, texts): self.id_text_map[str(cid)] = text else: start_id = self.index.ntotal self.index.add(embeddings) # 同步更新映射，自增ID for i, text in enumerate(texts): self.id_text_map[str(start_id + i)] = text print(f"✅ 成功添加{len(texts)}条文本，当前总量：{self.index.ntotal}") def search(self, query_text: str, top_k: int = 3, threshold: float = None) -> list: """ 相似度检索 :param query_text: 查询文本 :param top_k: 返回结果数量 :param threshold: 相似度阈值，L2模式为最大距离，余弦模式为最小相似度 :return: 检索结果列表 """ if self.index.ntotal == 0: return [] query_emb = self._text_to_embedding([query_text]) scores, indices = self.index.search(query_emb, top_k) results = [] for i in range(top_k): vec_id = indices[0][i] score = float(scores[0][i]) text = self.id_text_map.get(str(vec_id), "") # 阈值过滤 if threshold is not None: if self.similarity_type == "l2" and score > threshold: continue if self.similarity_type == "cosine" and score < threshold: continue results.append({ "id": int(vec_id), "text": text, "score": score }) return results def delete_by_ids(self, ids: list) -> None: """按ID删除向量，仅支持自定义ID模式""" if not self.use_custom_id: raise NotImplementedError("自增ID模式不支持单独删除，请使用自定义ID模式") ids_array = np.array(ids, dtype='int64') self.index.remove_ids(ids_array) # 同步删除映射 for cid in ids: self.id_text_map.pop(str(cid), None) print(f"✅ 已删除{len(ids)}条向量，当前总量：{self.index.ntotal}") def save_local(self, index_path: str = "faiss_index.index", map_path: str = "id_text_map.json"): """持久化保存到本地文件""" faiss.write_index(self.index, index_path) with open(map_path, "w", encoding="utf-8") as f: json.dump(self.id_text_map, f, ensure_ascii=False, indent=2) print(f"✅ 数据已保存，索引：{index_path}，映射：{map_path}") def load_local(self, index_path: str = "faiss_index.index", map_path: str = "id_text_map.json"): """从本地加载数据""" self.index = faiss.read_index(index_path) with open(map_path, "r", encoding="utf-8") as f: self.id_text_map = json.load(f) print(f"✅ 数据加载完成，当前总量：{self.index.ntotal}")

⚠️ 新手必看：10 个高频踩坑点与解决方案

整理了社区和项目实战中最容易遇到的问题，提前避开至少节省 3 天调试时间：

安装导入报错：DLL 加载失败 / 模块找不到
- 原因：Python 版本不兼容、同时安装了 cpu 和 gpu 版本、Windows 缺少 VC++ 运行库
- 解决：卸载所有 faiss 相关包，仅保留 faiss-cpu；升级 pip 到最新版本；Windows 安装 VC++ 2019 运行库。
向量维度不匹配报错
- 原因：创建索引的维度和向量实际维度不一致，多为硬编码维度后更换模型导致
- 解决：永远通过embedding.shape[1]动态获取维度，不要手动写死数值。
中文检索结果准确率极低
- 原因：使用了纯英文 Embedding 模型，或长文本未分段直接向量化导致语义混杂
- 解决：更换中文专属或多语言 Embedding 模型；长文本先做合理分段再向量化。
add_with_ids 报错：类型不匹配
- 原因：自定义 ID 的数组类型不是 int64
- 解决：创建 ID 数组时强制指定dtype='int64'。
空索引调用 search 直接崩溃
- 原因：索引中没有向量时执行检索操作
- 解决：检索前先判断index.ntotal > 0，做空值保护。
向量数据类型导致性能下降
- 原因：传入 float64 类型向量，FAISS 内部自动转换产生额外耗时
- 解决：向量化后统一用.astype('float32')转换精度。
保存加载后 ID 和文本对应不上
- 原因：索引和映射文件不同步更新，增量添加后只存了索引没存映射
- 解决：封装为原子操作，每次修改索引后同步更新映射文件并持久化。
自增 ID 模式无法删除单条向量
- 原因：基础 IndexFlatL2 原生不支持按位置删除
- 解决：切换为 IndexIDMap 模式，通过自定义 ID 调用 remove_ids 删除。
大数据量下检索越来越慢
- 原因：一直使用 IndexFlatL2 精确检索，数据量上升后暴力计算耗时陡增
- 解决：10 万条以上切换为 IVF 近似索引，百万级以上使用 HNSW 索引。
数据隐私与合规风险
- 原因：调用在线 API 接口向量化企业内部敏感数据
- 解决：内部数据必须使用本地部署的 Embedding 模型，全程数据不出内网。

🚀 高阶拓展：从入门到生产的进阶玩法

1. 近似索引实战：IVFFlat 十万级向量提速方案

当数据量超过 10 万条，精确检索速度会明显下降，此时使用 IVF（倒排文件）近似索引，牺牲极小召回率换取数倍速度提升。

import faiss dimension = 384 nlist = 100 # 聚类中心数量，通常设为 4*sqrt(向量数量) # 创建IVF_FLAT索引 quantizer = faiss.IndexFlatL2(dimension) ivf_index = faiss.IndexIVFFlat(quantizer, dimension, nlist, faiss.METRIC_L2) # IVF索引必须先训练再添加向量 corpus_embeddings = model.encode(text_corpus, convert_to_numpy=True).astype('float32') ivf_index.train(corpus_embeddings) print(f"索引训练完成：{ivf_index.is_trained}") # 添加向量 ivf_index.add(corpus_embeddings) # 检索时调整nprobe平衡精度与速度，值越大精度越高、速度越慢 ivf_index.nprobe = 10

💡 调参建议：nlist 一般设为数据量开根号的 2~4 倍；nprobe 默认 1，通常设为 nlist 的 5%~10%。

2. 向量更新的行业通用方案

FAISS 原生不支持「原地更新向量」，主流落地方案有两种：

标记删除 + 增量添加：适合更新频率低的场景，先用remove_ids删除旧向量，再添加新向量，实现简单。
定时全量重建：适合数据量不大、定时更新的场景，每天凌晨全量重新构建索引并替换旧文件，一致性最高。

3. GPU 加速开启方法

有 NVIDIA 显卡的环境，安装 faiss-gpu 后，几行代码即可启用 GPU 加速，百万级向量检索速度提升 5~10 倍。

import faiss # 创建CPU索引 cpu_index = faiss.IndexFlatL2(dimension) # 转换为GPU索引，0为GPU设备ID gpu_index = faiss.index_cpu_to_gpu(faiss.StandardGpuResources(), 0, cpu_index) # 后续add、search操作和CPU索引完全一致

4. 对接 LangChain 快速搭建 RAG

FAISS 是 LangChain 原生深度支持的向量库，只需几行代码就能对接本地大模型搭建私有知识库 RAG 系统，全程本地运行，数据零泄露。

from langchain_community.vectorstores import FAISS from langchain_community.embeddings import HuggingFaceEmbeddings # 初始化本地Embedding embeddings = HuggingFaceEmbeddings(model_name="paraphrase-multilingual-MiniLM-L12-v2") # 构建FAISS向量库 db = FAISS.from_texts(text_corpus, embeddings) # 相似度检索 docs = db.similarity_search("什么是RAG", k=2)