当前位置: 首页 > news >正文

RAG——2.嵌入技术Embedding

向量嵌入技术重要性与环节

核心地位:向量嵌入技术是现代人工智能系统的知识内核,在文档导入和分块后至关重要,决定知识库和 RAG 检索系统能力上限。

环节要点:包括向量嵌入模型的选择、吸收嵌入和密集嵌入等环节,还涉及生成多表示索引和混合检索。

嵌入模型选择

OpenAI 模型标杆:做项目时通常先用 OpenAI 的模型实验,它代表业界标杆,开源模型多在努力接近它。

多模型选择:也有谷歌 Gemini 系列等商业模型,开源领域较难找到超商业付费的模型,特定领域若有更好模型可交流。

嵌入基本概念与计算

含义类比:嵌入是把外界信息转化为向量表示的过程,类似人脑将感官信号转化为神经电信号,计算机向量更明确,可拷贝。

维度与计算:不同大语言模型学习向量方式有别,生成向量的数字和维度大小不同,维度越大细节越丰富但计算复杂度增加,计算向量相似度常用余弦相似度,也有欧氏距离、曼哈顿距离和点积等度量方式。

向量应用场景

传统 NLP 任务:传统 NLP 任务如情感分类需将向量作为特征输入模型进行监督学习,特定数据集需特定模型。

RAG 应用:RAG 和大模型使任务更通用,通过查找相似内容快速回答问题,应用领域扩展,但精细化场景仍可用判别式模型。

嵌入模型发展演变

早期模型:从早期 word2vec 等低词向量模型,到 glove、fasttext 等,它们是上下文无关的词嵌入,训练好后难以灵活适应新语料。

现代模型:Transformer 机制出现后,产生上下文相关的词嵌入模型,如 Bert 和 SLM 等,随后发展出句子嵌入模型和 Sentence Transformer 框架,成为现代嵌入模型基本架构。

大语言模型时代嵌入模型

MTED 排行榜:该排行榜有模型大小、能力、嵌入维度和最大 token 数四个维度,可帮助过滤选择模型,涵盖聚类、分类等八大类任务。

开源与闭源模型:开源模型如千问系列在排行榜较领先,闭源商用模型有 OpenAI embedding、BGE embedding、Gina 家族模型等,各有特点和适用场景,选择时需考虑口碑、任务适配性、实操感受、开源或商用、价格和 GPU 资源等因素。

稀疏嵌入与密集嵌入

概念区别:稀疏嵌入早期通过词频和 n - gram 数,维度大且大部分为 0;密集嵌入由机器学习模型经 Transformer 架构计算生成,是当前主流嵌入形式。

BM25 算法:是典型稀疏嵌入实现,计算涉及词频(TF)和逆文档频率(IDF),还有 K1、b 两个超参数分别控制词频权重和文档长度归一化程度。

BGEM3 模型:该模型具有多功能、多语言、多粒度特点,可计算稀疏嵌入、密集嵌入和多向量嵌入,利于理解相关概念和进行混合检索。

多模态嵌入模型应用

应用意义:多模态检索在推荐系统等领域大有用处,未来多模态模型能力将增强,可集成到向量数据库进行检索和生成。

visual BGE 模型:是图片和文字双模态模型,处于早期研究阶段,安装需从特定子目录安装,使用时需下载支持的嵌入模型权重,仅支持 bgembase ENV1.5 和 BGEM3 两种模型,可展示图片和文字的编码情况。

嵌入技术发展方向:包括多语言、多模态、轻量化部署,套娃式嵌入学习、特定领域嵌入、图的嵌入、自适应嵌入、层次化表征学习以及嵌入模型更细致评估等。

1. BGE-M3 稀疏嵌入向量生成

原理:稀疏嵌入的核心是捕捉文本中的关键词特征,通过神经网络为每个 token(词 / 子词)分配重要性权重,生成高维稀疏向量(仅出现的 token 对应维度有非零值,其余为 0),类似 BM25 的关键词加权效果。

生成过程

  • 输入文本经 Transformer 编码器编码,得到每个 token 的隐藏状态。
  • 通过可学习的线性层 + ReLU 激活函数,计算每个 token 的权重(lexical_weights)。
  • 权重与词表维度对齐,仅保留文本中出现 token 的非零权重,形成稀疏向量。
  • 相似度计算基于共现 token 的权重乘积,实现关键词级别的精确匹配。
  • 技能 / 剧情检索:输入 “猢狲施展烈焰拳”,稀疏嵌入精准匹配 “猢狲”“烈焰拳” 等关键词,密集嵌入理解 “施展技能” 的语义,多向量嵌入细粒度匹配动作描述。
  • 角色对话匹配:玩家输入 “猢狲怎么抵挡神兵攻击”,混合嵌入同时匹配角色名、技能名和问题意图,提升对话响应准确率。
  • 长文本剧情检索:支持 8192 token 长文本输入,可检索完整章节中与 “猢狲” 相关的剧情片段。
  • 三合一检索能力:同时支持稀疏、密集、多向量检索,兼顾关键词精确匹配、全局语义理解和细粒度语义匹配。
  • 多语言支持:支持 100+ 语言,适合跨语言场景(如游戏多语言版本)。
  • 长文本处理:最大支持 8192 token 输入,可处理长文档、剧情脚本等。
  • 高效推理:CPU 环境下可实现毫秒级响应,部署成本低。
  • 领域适配性强:可微调适配游戏、法律、医疗等专业领域,提升垂直场景检索效果。
http://www.jsqmd.com/news/558606/

相关文章:

  • 多模态交互概念展示:LFM2.5-1.2B-Thinking-GGUF如何理解并处理图像描述文本
  • 多模态自动化:OpenClaw+Qwen3-32B-Chat处理图文混合任务
  • 【GD32】---- 从零构建串口调试框架:重定向printf的工程化实践
  • 2026川南继电保护培训:危化作业培训、叉车司机培训、工业锅炉司炉培训、快开门式压力容器培训、有限空间作业培训选择指南 - 优质品牌商家
  • 时序检测增强:结合LSTM优化DAMOYOLO-S对视频流的目标跟踪
  • 2026年知名的芝麻黑墓碑/芝麻黑板材/芝麻黑套碑/芝麻黑花岗岩推荐公司 - 品牌宣传支持者
  • Yolov5_DeepSort_Pytorch避坑指南:从视频检测到结果可视化的完整流程
  • Java向量API工业应用倒计时:JDK25 LTS发布后,这6个关键接口将永久锁定ABI——现在不学,半年后重构成本翻倍!
  • 2026年GPT拆解能力实测:国内镜像站使用指南
  • Java异常体系全景解析:从Checked与Unchecked的本质区别到最佳实践
  • Qwen3-VL-8B保姆级部署教程:从Anaconda环境搭建到模型推理
  • 2026智慧校园一体化管理应用白皮书:在线报名缴费系统+流程管理/如何破解信息孤岛/学校ERP系统+OA流程管理/选择指南 - 优质品牌商家
  • 文墨共鸣大模型长期记忆(LSTM)优化对话体验:实现多轮深度交流
  • 2026年口碑好的北京暖气漏水检测维修/北京厨房漏水检测维修/北京水管漏水检测维修实力公司推荐 - 品牌宣传支持者
  • 2026最新款蓝牙耳机,我们想做点不一样的
  • EasyAnimateV5-7b-zh-InP嵌入式系统轻量化部署方案
  • SUPER COLORIZER一键部署指南:基于Ubuntu 20.04的完整环境配置教程
  • UG/NX Block UI Styler字符串控件避坑指南:常见问题与解决方案
  • 2026年热门的鲁灰套碑/泗水鲁灰石材/鲁灰板材/鲁灰墓碑推荐公司 - 品牌宣传支持者
  • Z-Image-Turbo体验报告:真正为创作者设计的极速文生图工具
  • AI净界RMBG-1.4与Python结合实现智能图像背景去除
  • 3步构建你的离线OCR工作站:Umi-OCR开源解决方案全解析
  • OpenInTerminal终极指南:在Finder中一键打开终端的革命性工具
  • 告别驱动芯片!手把手教你用FPGA直接驱动RGB888/565屏幕(附Verilog代码)
  • 英语从句全攻略:名词性、定语、副词性从句一网打尽(含易错点分析)
  • 高效AI结对编程方案:3种专业级Aider部署策略深度解析
  • Ostrakon-VL-8B模型微调实战:使用Git进行版本管理与协作
  • FaceFusion新手教程:手把手教你调整参数,实现高保真换脸效果
  • OFA模型处理C语言文件读写操作生成的流程图描述
  • 零基础入门bert-base-chinese:一键运行完型填空、语义相似度、特征提取