当前位置：首页 > news >正文

RAG——2.嵌入技术Embedding

news 2026/7/23 8:03:50

向量嵌入技术重要性与环节：

核心地位：向量嵌入技术是现代人工智能系统的知识内核，在文档导入和分块后至关重要，决定知识库和 RAG 检索系统能力上限。

环节要点：包括向量嵌入模型的选择、吸收嵌入和密集嵌入等环节，还涉及生成多表示索引和混合检索。

嵌入模型选择：

OpenAI 模型标杆：做项目时通常先用 OpenAI 的模型实验，它代表业界标杆，开源模型多在努力接近它。

多模型选择：也有谷歌 Gemini 系列等商业模型，开源领域较难找到超商业付费的模型，特定领域若有更好模型可交流。

嵌入基本概念与计算：

含义类比：嵌入是把外界信息转化为向量表示的过程，类似人脑将感官信号转化为神经电信号，计算机向量更明确，可拷贝。

维度与计算：不同大语言模型学习向量方式有别，生成向量的数字和维度大小不同，维度越大细节越丰富但计算复杂度增加，计算向量相似度常用余弦相似度，也有欧氏距离、曼哈顿距离和点积等度量方式。

向量应用场景：

传统 NLP 任务：传统 NLP 任务如情感分类需将向量作为特征输入模型进行监督学习，特定数据集需特定模型。

RAG 应用：RAG 和大模型使任务更通用，通过查找相似内容快速回答问题，应用领域扩展，但精细化场景仍可用判别式模型。

嵌入模型发展演变：

早期模型：从早期 word2vec 等低词向量模型，到 glove、fasttext 等，它们是上下文无关的词嵌入，训练好后难以灵活适应新语料。

现代模型：Transformer 机制出现后，产生上下文相关的词嵌入模型，如 Bert 和 SLM 等，随后发展出句子嵌入模型和 Sentence Transformer 框架，成为现代嵌入模型基本架构。

大语言模型时代嵌入模型：

MTED 排行榜：该排行榜有模型大小、能力、嵌入维度和最大 token 数四个维度，可帮助过滤选择模型，涵盖聚类、分类等八大类任务。

开源与闭源模型：开源模型如千问系列在排行榜较领先，闭源商用模型有 OpenAI embedding、BGE embedding、Gina 家族模型等，各有特点和适用场景，选择时需考虑口碑、任务适配性、实操感受、开源或商用、价格和 GPU 资源等因素。

稀疏嵌入与密集嵌入：

概念区别：稀疏嵌入早期通过词频和 n - gram 数，维度大且大部分为 0；密集嵌入由机器学习模型经 Transformer 架构计算生成，是当前主流嵌入形式。

BM25 算法：是典型稀疏嵌入实现，计算涉及词频（TF）和逆文档频率（IDF），还有 K1、b 两个超参数分别控制词频权重和文档长度归一化程度。

BGEM3 模型：该模型具有多功能、多语言、多粒度特点，可计算稀疏嵌入、密集嵌入和多向量嵌入，利于理解相关概念和进行混合检索。

多模态嵌入模型应用：

应用意义：多模态检索在推荐系统等领域大有用处，未来多模态模型能力将增强，可集成到向量数据库进行检索和生成。

visual BGE 模型：是图片和文字双模态模型，处于早期研究阶段，安装需从特定子目录安装，使用时需下载支持的嵌入模型权重，仅支持 bgembase ENV1.5 和 BGEM3 两种模型，可展示图片和文字的编码情况。

嵌入技术发展方向：包括多语言、多模态、轻量化部署，套娃式嵌入学习、特定领域嵌入、图的嵌入、自适应嵌入、层次化表征学习以及嵌入模型更细致评估等。

1. BGE-M3 稀疏嵌入向量生成

原理：稀疏嵌入的核心是捕捉文本中的关键词特征，通过神经网络为每个 token（词 / 子词）分配重要性权重，生成高维稀疏向量（仅出现的 token 对应维度有非零值，其余为 0），类似 BM25 的关键词加权效果。

生成过程：

输入文本经 Transformer 编码器编码，得到每个 token 的隐藏状态。
通过可学习的线性层 + ReLU 激活函数，计算每个 token 的权重（lexical_weights）。
权重与词表维度对齐，仅保留文本中出现 token 的非零权重，形成稀疏向量。
相似度计算基于共现 token 的权重乘积，实现关键词级别的精确匹配。
技能 / 剧情检索：输入 “猢狲施展烈焰拳”，稀疏嵌入精准匹配 “猢狲”“烈焰拳” 等关键词，密集嵌入理解 “施展技能” 的语义，多向量嵌入细粒度匹配动作描述。
角色对话匹配：玩家输入 “猢狲怎么抵挡神兵攻击”，混合嵌入同时匹配角色名、技能名和问题意图，提升对话响应准确率。
长文本剧情检索：支持 8192 token 长文本输入，可检索完整章节中与 “猢狲” 相关的剧情片段。
三合一检索能力：同时支持稀疏、密集、多向量检索，兼顾关键词精确匹配、全局语义理解和细粒度语义匹配。
多语言支持：支持 100+ 语言，适合跨语言场景（如游戏多语言版本）。
长文本处理：最大支持 8192 token 输入，可处理长文档、剧情脚本等。
高效推理：CPU 环境下可实现毫秒级响应，部署成本低。
领域适配性强：可微调适配游戏、法律、医疗等专业领域，提升垂直场景检索效果。