当前位置：首页 > news >正文

Embedding Model（嵌入模型）完整讲解：句子转向量全过程

news 2026/6/29 16:47:00

Embedding Model（嵌入模型）完整讲解：句子转向量全过程

一、核心作用

Embedding 模型的唯一任务：把人类可读的文本（句子、段落、词语）映射成一段固定长度的浮点数字数组，也就是向量（vector）。

语义相近的句子 → 向量在高维空间距离很近
语义完全无关的句子 → 向量距离很远这是向量数据库、RAG 检索的底层基础。

二、完整转化流程（一句话拆解）

输入句子：MacBook本地运行Chroma向量库

分词（Tokenize）模型把句子拆成最小单元（token），如单词 / 子词：MacBook/本地/运行/Chroma/向量库
Token 编码每个 token 查表转为唯一数字 ID；
多层 Transformer 编码计算模型根据上下文理解整句语义，融合每个词的语境信息；
输出句向量（Pooling 池化）把整段文本所有 token 的隐藏层输出聚合，压缩成单一固定维度向量例：all-MiniLM 输出 384 维、text-embedding-ada-002 输出 1536 维最终输出示例（384 维简化示意）：[0.021, -0.134, 0.078, ... , 0.092]

三、为什么要把句子变成向量？

机器无法直接读懂文字计算机只能计算数字，不能判断两段文字 “意思像不像”；
用数学衡量语义相似度拿到两个句子的向量后，用余弦相似度 / L2 距离算出 0~1 之间的分数：分数越接近 1 = 语义高度匹配；
实现语义检索（解决传统关键词缺陷）句子 A：轻薄笔记本电脑推荐句子 B：平价便携手提办公本字面无重复关键词，但 Embedding 生成的向量距离极近，向量数据库可以精准匹配；传统倒排索引会直接漏掉。

四、常见 Embedding 模型分类

1. 开源本地离线模型（Chroma 默认）

all-MiniLM-L6-v2：轻量、384 维，CPU 就能跑，适合本地 RAG
bge-small/bge-base：中文语义效果更强，国内 RAG 主流
mxbai-embed-large：高精度，长文本理解优秀特点：完全离线，不上传数据，适合 Mac 本地私有知识库

2. 云端 API 嵌入模型

OpenAI text-embedding-3-small/large
阿里通义、腾讯混元、智谱 AI 嵌入接口特点：精度高，无需本地显卡，调用接口付费，数据会上传服务商

3. 多模态 Embedding（CLIP）

不只转文本，图片、文字统一转为同空间向量，支持以文搜图、以图搜文。

五、结合你之前的句子联动理解

straightforward, there's a bit of an overhead in setting this

将这句话送入 Embedding 模型 → 生成一条向量；
再输入同义句：The logic is simple, but configuring it takes extra work；
两个句子字面单词几乎无重合，但向量余弦相似度极高；
Chroma 这类向量库通过对比向量数值，就能识别二者表达同一个含义，完成语义检索。

六、关键特性

维度固定：同一模型输出向量长度永远一致，才能做距离计算；
语义压缩：几百个数字就能承载整段文字的核心含义；
无人类可读性：向量只是一串小数，人无法看懂，仅用于数学计算；
上下文感知：多义词会根据句子生成不同向量，区分歧义例：苹果电脑vs苹果水果，模型输出完全不同的向量。

七、极简 Python 示例（Chroma 内置 Embedding）

python

运行

import chromadb from chromadb.utils.embedding_functions import SentenceTransformerEmbeddingFunction # 加载本地嵌入模型 emb_fn = SentenceTransformerEmbeddingFunction(model_name="all-MiniLM-L6-v2") # 句子转向量 sentence = "embedding model把句子转化成向量" vec = emb_fn([sentence]) # vec 就是句子对应的浮点向量数组 print(len(vec[0])) # 输出384，该模型固定384维

http://www.jsqmd.com/news/1090590/

相关文章：

Qt 铁甲阅读器-搜索

魔兽世界玩家必备：免费API查询与智能宏生成工具完全指南

Go语言的sync.Map缓存使用

AI应用开发平台排行榜：企业选型必看指南

深度解读阿里云百炼 HappyHorse 1.1 视频生成大模型——能力解析与 Python/Java 工程化接入实战

从零搭建内网渗透靶场：VMware虚拟网络配置与域环境攻防实战

6.Mysql锁机制与优化实践以及MVCC底层原理剖析

本地离线批量 OCR 实战：证件、发票、铭牌一键提取结构化信息

如何在Amlogic电视盒上安装Debian系统：2025年终极开源解决方案

如何用AI瞄准助手Aimmy快速提升游戏水平：终极配置指南

英雄联盟皮肤库终极指南：一站式获取所有官方皮肤与炫彩资源

3分钟掌握Chrome画中画扩展：免费提升多任务效率的终极指南

重塑硬件价值：OpenCore Legacy Patcher如何让老Mac重获新生

惠普暗影精灵性能控制终极指南：OmenSuperHub开源工具完全解析

大数据专业课难度高？挂科率到底什么水平？过来人告诉你！

Web3 漏洞复盘：Verus 跨链桥 1158 万美元“数据结构错位“事件

Plus 到底值不值 20 美金？

Android13文件访问权限重构：从MANAGE_EXTERNAL_STORAGE到细粒度媒体权限的实战解析

Superpowers - 编码Agent 工程技能插件集详细介绍

【硕博生必看 | 会议征稿通知 | 双一流高校主协办 | 权威出版社出版 | EI 、Scopus稳定检索 | 另合作期刊推荐】2026年8月国际学术会议列表清单 | 2026年8月全领域学术会议速览

如何将Amlogic电视盒变身高性能Linux服务器：2025终极开源方案

抖音去水印终极指南：5分钟搭建你自己的无水印视频解析工具

变频器与伺服系统的噪声战争：02 PWM为什么像一把高速砍刀？

服务注册与发现：Eureka, Nacos, Consul

AI模型能力发布机制解析：从 gated release 到可控部署实践

BiliTools跨平台工具箱：高效管理哔哩哔哩资源的完整解决方案

Legacy iOS Kit深度解析：旧款iOS设备降级与越狱的终极解决方案

跨平台B站视频下载解决方案：BilibiliDown一站式离线工具

高效AI专著生成方案：4款AI工具推荐，快速搞定20万字专著写作！

5分钟精通AMD Ryzen处理器调试：SMUDebugTool终极指南