当前位置：首页 > news >正文

向量检索 Retrieval：Scoring（打分） + Chunk Overlap（块重叠）完整讲解

news 2026/6/30 21:11:18

向量检索 Retrieval：Scoring（打分） + Chunk Overlap（块重叠）完整讲解

一、Scoring 相似度打分（检索排序核心）

1. 核心作用

向量检索时，数据库会计算查询向量 Query和库内每条文档块向量的相似度分数，用分数做排序，分数越高代表语义越匹配，只返回 Top-N 高分结果。主流 3 种打分算法，向量数据库通用：

余弦相似度 Cosine Similarity（Chroma、Milvus、Pinecone 默认）
- 适用：归一化后的 Embedding 向量（几乎所有现代嵌入模型输出都会归一化）
- 分数区间：[-1, 1]，业务中只会出现[0,1]
  - 1 = 语义完全一致
  - 0 = 完全无关
- 优势：不受向量长度影响，只对比方向，文本检索首选
L2 欧氏距离 L2 Distance
- 逻辑和余弦相反：数值越小越相似
- 缺点：受向量模长干扰，Embedding 场景极少单独用
点积 Dot Product
- 归一化向量下，结果等价余弦相似度，计算速度更快，OpenAI Embedding 常用

2. Retrieval 流程里 Scoring 完整链路

用户提问 → 用同个 Embedding 生成 Query 向量
ANN 索引快速召回一批候选向量（粗召回，不精细打分）
对候选集做精确 Scoring（精排），计算每条相似度分数
按分数从高到低排序，截取 Top K 片段交给 LLM 做生成

3. 业务调优关键点

分数阈值过滤：设置score_threshold=0.7，低于阈值直接丢弃无关文档，减少 LLM 冗余上下文
重排 Rerank：粗召回 Scoring 后，用交叉编码器再二次打分，大幅提升精准度
元数据过滤前置：先按标签 / 时间筛数据，再打分，减少计算开销

举例（Chroma）

python

运行

results = collection.query( query_texts=["向量数据库打分原理"], n_results=5, score_threshold=0.7 # 只返回余弦分≥0.7的块 ) # results["distances"] 存储每条对应的余弦距离/分数

二、Chunk Overlap 文本块重叠（分块策略核心参数）

1. 定义

做文档 Chunk 分片时，相邻两个文本块重复截取一段文字，重复的字符长度就是 overlap 重叠长度。举例：

chunk_size=500（单块 500 字）
chunk_overlap=100（重叠 100 字）块 1：0~500 字块 2：400~900 字块 3：800~1300 字相邻块中间 100 字完全重复。

2. 为什么检索必须加 Overlap（解决核心缺陷）

无重叠分块致命问题：关键语义被切在两块边界例：完整知识点「Embedding 向量通过余弦 Scoring 完成检索排序」切分刚好卡在中间：块 1 结尾：Embedding 向量通过余弦块 2 开头：Scoring 完成检索排序用户提问 “向量怎么打分检索”，单独检索任意一块都缺失完整上下文，语义断裂、Scoring 分数偏低，检索漏结果。

重叠机制让完整跨边界句子同时存在两块里，检索时至少有一块携带完整语义，大幅降低漏召、提升检索匹配分数。