当前位置: 首页 > news >正文

[智能体-274]:OneHot(单词稀疏向量)→ BoW(文本稀疏向量)→ Word2Vec(单词稠密向量)→ BGE(文本稠密向量)

分类规律:按两个维度划分:粒度(单词 / 文本)+ 存储(稀疏 / 稠密)

稀疏向量稠密向量
单词粒度OneHotWord2Vec
文本粒度BoW 词袋BGE/E5

一、OneHot:单词级・稀疏向量

1. 作用

单个词语转为机器可计算数字,实现单词数字化。

2. 规则

全局词典长度 = 向量长度,当前单词下标置 1,其余全 0。例:

3. 特点

  1. 稀疏:绝大部分元素是 0;
  2. 任意两词向量正交,相似度永远 = 0,不懂词义关系
  3. 缺陷:词库变大,向量维度爆炸。

定位:只能表示单个词,无法直接表示整句文本。

二、BoW 词袋:文本级・稀疏向量

1. 由来

OneHot 只能编码单个词,机器学习需要整条文本转为一个特征向量诞生词袋

2. 规则

1. 全文档构建统一词典;

2. 一句话按词典顺序统计每个词语出现次数,构成整句向量。词典:[我,爱吃,苹果,香蕉]句子:我爱吃苹果 → \([1,1,1,0]\)

3. 特点

1.稀疏:大量位置计数为 0;

2. 丢弃语序、语法:狗咬人=人咬狗向量;

3. 无词语语义:苹果、香蕉同为水果,向量无相近关系。

定位:稀疏文本向量,实现整文本数字化,但无语义。

小结前两代:OneHot、BoW 全是稀疏编码,只能记录有无 / 频次,没有语义理解能力

三、Word2Vec:单词级・稠密向量

1. 由来

解决 OneHot/BoW 无语义的痛点:让词语拥有语义特征。

2. 原理

依托上下文无监督训练,同上下文的词语向量靠近,一个词对应一组连续小数(稠密)。

例:苹果\([0.2,0.5,-0.1]\),香蕉\([0.21,0.49,-0.09]\)

3. 特点

1.稠密:没有大量 0,维度固定(50/100/300);

2. 可余弦算相似度:苹果↔香蕉相似度很高;

3. 短板:静态词向量,一词一个固定向量,不能区分一词多义

4. 想要得到文本向量:只能把句内所有词向量求和 / 平均(简易拼接,丢失语序与整句语义)。

定位:语义化单词向量,天生只服务单个词语,不擅长直接表征整段文本

四、BGE/E5:文本级・稠密向量

1. 由来

Word2Vec 只能做好单词,拼接成文本效果差;

行业需要模型直接输出整句 / 段落的语义向量,用于检索、RAG。

2. 原理

基于预训练大模型,读取全句上下文、语序、整体意图,一段文本直接输出一条稠密向量

例:我喜欢吃苹果和香蕉→ 直接生成一条1024 维稠密数组

3. 特点

1.稠密向量

2. 理解整段主旨、隐含语义、语序;句式不同但意思相同的文本,向量高度近似;

3. 工业落地:知识库检索、文本聚类、语义匹配首选。

定位:原生语义化文本向量,当前主流。

五、整条链路进化逻辑

  1. 第一阶段:数字化(无语义)OneHot(单个词数字化)→BoW(整文本数字化),稀疏、只记录出现与否,不懂含义。
  2. 第二阶段:语义化(分粒度升级)Word2Vec(单词实现语义稠密化)→BGE(文本实现语义稠密化),从 “记数字” 升级为 “懂语义”。

六、一句话速记

  • OneHot:一词一稀疏
  • BoW:一句一稀疏
  • Word2Vec:一词一稠密
  • BGE:一句一稠密

补充衔接 BERT

BERT 是过渡:既可输出动态词向量(解决 Word2Vec 一词多义),也能构造句向量;BGE 在 BERT 基础上专门优化文本检索任务,成为通用文本嵌入

http://www.jsqmd.com/news/956119/

相关文章:

  • 2026年6月成都龙泉驿德系豪车专修选择指南:益科达口碑、技术、性价比全解析 - 十大排行榜推荐
  • STM32温度控制系统实战指南:从零搭建高精度PID温控方案
  • 终极指南:如何用本地工具永久保存微信聊天记录,打造个人数字记忆库
  • 2026年锦州本地人常去的 5 家黄金回收白银回收铂金回收实体店实地测评汇总 - 诚金汇钻回收公司
  • NetToolsPro V1.2.0 发版
  • Dism++:Windows系统深度优化与维护的16种语言开源解决方案
  • 基于FPGA与频分复用的高速EIT系统:实现3906 fps实时成像
  • [智能体-275]:无论是词向量,还是文本向量,本质上是把自然语言的文字,转换成大模型能够识别的特性向量,能够表征语言文字自身的内在语义特征,作为大模型的输入
  • Umi-OCR终极指南:免费离线OCR从入门到精通,轻松实现图片文字识别
  • 2026年崇州特色美食品牌权威排名出炉 本地食客常选的都在这了 - GrowthUME
  • 如何告别臃肿AWCC?AlienFX Tools终极轻量化控制方案完整指南
  • aerospace-superalloy-creep-testing-case-study
  • 2026 年在线抠图软件详细教程:5 种方法一看就会,新手轻松免下载 - 软件小管家
  • Matlab 2010b安装后快捷方式与文件关联修复全攻略
  • aero-engine-blade-thermal-fatigue-dic-inspection
  • 电子胶粘剂涂胶轨迹怎么三维检查?一文看懂三维扫描方案 - 资讯纵览
  • 胜任力模型建模人才盘点|岗位胜任力模型构建的基本理论框架
  • 3分钟极速部署:Windows任务栏股票行情实时监控完整教程
  • 3步完成旧设备现代化:让你的老Mac焕发新生
  • 2026年普陀区工厂漏水维修怎么选?本地防水补漏施工公司实测榜单 - 资讯纵览
  • 2026上海黄金名表回收分级评分!S/A/B级六大平台权威定级 - 薛定谔的梨花猫
  • 深度解析企业短视频培训:AI时代企业获客增长指南 - 资讯速览
  • 6款论文降AI率工具横评:AI痕迹秒清零,学生党省钱首选
  • 北京汉堡品牌加盟哪家专业,全链路培训打造标准化汉堡门店 - 17322238651
  • 终极免费微信聊天记录导出指南:3步永久保存你的数字记忆
  • 日语水平不够却还得写日语论文怎么办?8款AI外文论文工具帮我写出规范日文论文! - 逢君学术-AI论文写作
  • 风格豪放的555
  • 2026年6月帝舵官方售后服务中心最新核验报告:实地探访与多方验证全记录 - 亨得利官方服务中心
  • Microsoft 365 Copilot企业落地:构建可审计、可追溯的AI协作协议
  • 如何快速解决Android Root设备认证问题:终极Play Integrity修复指南