当前位置: 首页 > news >正文

[智能体-264]:Embedding 通俗发展史(四段式,大白话,从远古→现在 RAG)

一句话总纲:Embedding = 给文字 / 图片发坐标,坐标近 = 意思像,计算机靠坐标算相似度

一、史前:独热编码 One-hot(2013 年前,最原始)

逻辑

给每个词语单独编一串超长数字,1 个数字是 1,剩下全 0。 举例:词典一共 5000 个字,苹果 =[1,0,0…0]、香蕉 =[0,1,0…0]

缺点

  1. 词越多向量越长,几万词就是几万位,存储爆炸;
  2. 所有词语距离一模一样,苹果和香蕉、苹果和汽车距离完全相同,机器分不清语义远近
  3. 没法算语义相似,只能做简单匹配

类比:每个人单独占一栋独立大楼,没法看两个人离得远不远。

二、第一代:静态 Embedding(2013~2017,Word2Vec/GloVe/FastText,Embedding 正式诞生)

核心原理:词由身边邻居决定(语言学:词伴定词义)

谷歌 2013 年 Word2Vec 划时代:拿海量文章训练,用「看前后单词猜中间词」自学每个词的固定坐标向量

  • 苹果、梨子经常一起出现→向量挨得近;
  • 国王 - 男人 + 女人≈女王(向量加减法成立)。

优点

几千词压缩成 300~768 位短向量,好存、好计算相似度,真正实现语义数字化

致命短板:一词一向量(静态固定)

苹果(水果)、苹果(手机公司)共用同一串数字分不清一词多义;一句话只能拆词再平均整句话语义不准。 FastText 改良:拆分偏旁字根,能识别生僻新词,但还是静态不变向量。

类比:每个人一辈子固定一个住址,不管去哪、干什么,地址永远不变。

三、第二代:动态上下文 Embedding(2018~2021,ELMo→BERT,颠覆性升级)

ELMo(2018):同一个词,换句子就换坐标

顺着读 + 倒着读整段话,同词不同上下文 = 不同向量

  • 吃苹果 →「苹果」向量 1;
  • 苹果发布会 →「苹果」向量 2,完美解决一词多义

BERT(2018 谷歌封神,现代 Embedding 基石)

Transformer双向阅读全文,做「完形填空」预训练,整句话、整段文字都能直接生成专属向量单词升级到句子 / 段落向量化。 衍生:SBERT 专门优化句子相似度,现在 RAG 早期标配。

类比:人出门换住址,在菜市场是买菜坐标、在写字楼是上班坐标,位置随环境变化。

四、第三代:大模型专用检索 Embedding(2022 至今,RAG 黄金时代,你现在在用)

随着大模型幻觉问题出现,诞生专门为文档检索优化嵌入模型,也是咱们做文档分片、向量库用的 BGE、E5、m3e、OpenAI text-embedding 系列:

  1. 优化目标不再是完形填空,而是相似度匹配:刻意让同义文本向量靠近、无关文本远离;
  2. 支持超长段落(几千字文档直接向量化),适配递归文本分片
  3. 国产 BGE-zh 系列:中文最优、本地离线跑、免费开源(你之前代码用的就是它);
  4. 多模态 Embedding:文字 + 图片 + 表格统一变向量,PDF 带插图也能检索(bge-visual、CLIP)。

当下落地(RAG)全链路

文档→递归字符分割 Chunk→Embedding 转向量→存入向量库; 用户提问→同一个 Embedding 转向量→向量库就近匹配召回原文→丢给大模型回答。

极简时间线总结

  1. One-hot:孤立编号,无语义
  2. Word2Vec:一词一坐标,固定不动
  3. BERT:一词多坐标,随上下文动态
  4. BGE/E5:专为文档检索而生,RAG 标配
http://www.jsqmd.com/news/952082/

相关文章:

  • Hello Agent 学习第一天
  • 深圳办公 ai 培训机构哪家值得信赖:五大机构最新专业测评 - 17329971652
  • 别再死记ResNet了!用PyTorch从零实现DenseNet-121,搞懂‘密集连接’到底好在哪
  • 被37所重点中小学内部传阅的《AI教学整合避坑手册》(含18个真实失败案例+可审计整改清单)
  • 2026乐清疏通马桶、下水道哪家好?4家优质商家测评信息,优选道道通! - 极速版本
  • 大优势揭秘,香港业主全屋定制为什么都选深圳RERA源木匠心 - 产品测评官
  • 利用人工智能破解中世纪密码
  • ai赋能jenkins:用快马平台智能生成与优化持续集成流水线脚本
  • 如何突破百度网盘下载限制:终极解析工具完全指南
  • 【结果+代码】2026中青杯B题第一问建立无参考图像质量评价(NR-IQA)的数学模型
  • 2026 年深圳全屋定制衣柜橱柜酒柜 10 万以内怎么选不踩坑 - 产品测评官
  • 2026年广东可靠的全屋定制工厂平台深度解析:如何选择真正省心的服务商? - 2026年企业资讯
  • 模型轻量化实战:将DenseNet-169部署到树莓派4B上做图像分类(附完整onnx转换与推理代码)
  • B站成分检测器:智能用户分析工具,让评论区身份一目了然
  • 2026年更新:特种电磁阀实力厂家宁波安利特的深度解析与选型指南 - 2026年企业资讯
  • WCH-Link Utility隐藏功能挖掘:不止烧录,还能一键读保护、读Flash和批量操作
  • 加油卡小程序开发玩法深度解析:功能架构、营销体系与落地方案
  • Python中类方法、静态方法、实例方法是否能访问类属性和实例属性
  • low-memory-server-swap-20260601
  • STC89C52电子时钟DIY避坑指南:从洞洞板飞线到Keil编程的完整心路历程
  • 驾校招生、排课、收费、考试全环节落地的SpringBoot+Vue可运行系统(含建库脚本与部署文档)
  • 云原生流量均衡调优:就绪探针优化与 IPVS 容器节点负载均匀分配机制
  • 高防CDN专注网站防御加速服务
  • 调试PHY芯片时,为什么插拔网线才能恢复网速?聊聊AR8035的硬复位与软复位
  • Windows Defender Remover终极指南:彻底解决“Device Guard Blocked“错误的3种方案
  • 星辰变归来最新官方下载渠道6月最新
  • 一文讲透必懂的RAG20个核心概念:从0到 1 学会
  • 方法概述,方法的其他形式,使用常见问题
  • 从EFPLMN到EFFPLMN:实战解析USIM卡如何影响你的手机搜网与信号
  • 从人的双眼到工程双目:双目立体视觉原理、同步方案与 2026 年算法突破