当前位置: 首页 > news >正文

[智能体-289]:什么是文本向量?它在向量数据库中存放的格式?内容?常见的操作方法与返回值?

一、什么是文本向量

文本向量(句子 Embedding):一段自然语言文本,经过 BGE/E5/BERT 等编码器,压缩成一串固定长度浮点数组,用空间坐标代表文本语义。

  • 一句话 → 1 条一维浮点向量:[0.12,-0.35,0.78……](常见 768 维、1024 维)
  • 语义相近 → 向量在高维空间距离近、余弦相似度高;语义无关→距离远。

区别:Word2Vec 是单个字词静态向量;BGE/BERT 是整段文本动态语义向量(RAG 主流)。

二、向量数据库内部:存储格式、存储内容

向量库一条数据 =主键 ID + 标量元数据 + 文本向量(稠密浮点数组)

1、存储格式(逻辑结构)

plaintext

{ id: 字符串/数字主键(唯一标识) metadata: {标签、分类、原文标题、创建时间} 【标量字段,和MySQL字段一致】 embedding: [d个浮点数] 【文本向量,核心检索字段】 }

示例(3 维简化,真实 768/1024 维)

表格

idmetadata (标量)embedding (文本向量)
1{"type":"数据库","text":"向量数据库用于语义检索"}[0.52,0.33,-0.21]
2{"type":"数据库","text":"Milvus 是主流向量数据库"}[0.55,0.30,-0.19]
3{"type":"水果","text":"苹果是常见水果"}[-0.71,0.22,0.65]

2、存储内容拆分

  1. 主键 ID:唯一编号,用来关联 MySQL 原始全文;
  2. 元数据 metadata:字符串、数字、日期等结构化信息,用于过滤筛选(等价 MySQL 普通字段);
  3. 文本向量 embedding:由 BGE/E5 生成的稠密浮点数数组,只用来相似度检索,不存储原始文字

工业规范:完整原文保存在 MySQL,向量库只存 ID + 向量 + 分类标签

三、文本向量在向量库的四大常用操作 + 返回值(增、删、改、查)

1. 新增(insert/add)

功能

文本→Embedding 模型生成向量 → ID + 元数据 + 向量批量入库。

入参:ids、metadatas、embeddings

python

运行

coll.add( ids=["1","2"], metadatas=[{"type":"数据库"},{"type":"数据库"}], embeddings=[[0.52,0.33,-0.21],[0.55,0.30,-0.19]] )

返回值:无(成功空返回,异常报错)

2. 删除(delete)

两种删除方式:

  1. 根据主键 ID 精准删除;
  2. 根据 metadata 条件批量过滤删除。

python

运行

coll.delete(ids=["1"]) coll.delete(where={"type":"水果"})

返回值:空 / 删除成功标识

3. 更新(update)

无法修改向量里单个小数,只能整条覆盖替换新向量 / 新元数据

python

运行

coll.update(ids=["1"],embeddings=[[0.53,0.32,-0.20]])

返回值:无

4. 查询(query,最核心:语义相似检索)

入参

query_embeddings(用户问题生成的文本向量)、n_results(返回 topN)、where(标量过滤条件)、include(指定返回内容)

底层逻辑

输入问句向量 → ANN 索引(HNSW/IVF)计算库内向量相似度 → 筛选最相近 N 条。

三种返回形式(重点)

1)include=[]:默认底层返回 → ids + distances (相似度 / 距离)

json

{"ids":[["1","2"]],"distances":[[0.01,0.03]]}

❌ 无原文、无向量

2)include=["metadatas"]:附带返回标签信息

多出 metadatas 字段,拿到分类、备注等文本信息

3)include=["embeddings"]:附带返回库里存储的原始文本向量

带出浮点数组[[0.52,0.33,-0.21],[0.55,0.30,-0.19]]

混合查询示例(先过滤再向量检索)

python

运行

coll.query( query_embeddings=[[0.52,0.33,-0.21]], n_results=2, where={"type":"数据库"}, include=["metadatas"] )

四、完整 RAG 链路串联(文本向量全流程)

  1. 文档文本 → BGE 模型 →文本向量
  2. ID + 标签 + 向量存入向量数据库,原文存入 MySQL;
  3. 用户提问 → 提问转向量 → 向量库查询 →获取相似文档 ID;
  4. 使用 ID 去 MySQL 查询真实原文,拼接大模型 prompt。

五、精简考点总结

  1. 文本向量 = 文本映射的固定长度浮点数组,代表语义;
  2. 向量库存:ID + 标量元数据 + 浮点向量,原文不在向量库;
  3. 查询底层只返回 ID + 相似度,原文 / 向量需要手动配置参数才返回。
http://www.jsqmd.com/news/960243/

相关文章:

  • KAG vs RAG:结构化知识注入如何提升AI推理可控性
  • 告别工程打架:手把手教你设计DSP双工程跳转框架,防止程序“鬼打墙”
  • 手把手教你用Cadence/Synopsys VIP加速SoC验证(附自研VIP开发避坑指南)
  • Arduino Uno核心芯片Atmega328P熔丝位配置详解:从0xFD与0x05的区别说起
  • 硬件工程师必备:稳压二极管代换手册与实战选型指南
  • 富士通MB91580与MB86R11芯片:HV/EV电机控制与智能座舱显示实战解析
  • SolidWorks宏录制完只有.swp文件?别急,手把手教你找回C#/VB.NET项目格式
  • MATLAB调用电脑摄像头报错?手把手教你安装图像采集工具箱硬件支持包(保姆级图文)
  • Mistral 8×7B SMoE架构深度解析:稀疏激活与专家分工的工程实现
  • 从GPT-2到GDPR:NLP工程师必须知道的5个伦理实战避坑指南
  • 从傅里叶到拉普拉斯:搞懂‘复频域’到底在分析什么(给控制/通信新人的避坑指南)
  • 你的TRL校准准不准?一个简单方法验证RS网分自定义校准件的性能
  • 从SolidWorks模型到Gazebo仿真:你的URDF文件还缺了哪些关键配置?
  • 上下文工程:让RAG系统真正可信的实战方法论
  • FPGA双向端口(inout)设计实战:三态门原理与Verilog实现详解
  • 告别有线网络:给树莓派监控项目插上4G翅膀(华为ME909s模块配置全记录)
  • 智慧树刷课插件:5分钟实现自动化学习的终极解决方案
  • 别再只调休眠了!STM32L431低功耗调试全记录:STOP2模式唤醒后外设(串口/I2C)异常恢复指南
  • [智能体-290]:BERT 详解:一词多坐标,上下文动态变化
  • LLM多智能体在癌症药物发现中的工程化实践
  • AI驱动的现代SEO:从关键词优化到用户意图解码
  • 给水排水工程师的EPANET入门:从零开始搭建第一个管网水力模型(含Python接口预告)
  • 工程师必备:高级搜索语法实战指南,精准挖掘技术文档与资源
  • 从招聘数据清洗实战,聊聊MapReduce里‘去重’和‘薪资计算’的几种写法
  • 从实验室到鱼缸:我用STM32+PT100+OLED做了一个智能水温监控器(带三级报警)
  • 未来行业竞争,真的会变成AI自动化水平的竞争吗?深度解析2026企业数字化转型新高地
  • MuleSoft企业级AI编排:LLM集成的可治理、可审计、可降级实践
  • 拯救你的老旧设备:用1个MOS管搞定3.3V单片机与5V模块的串口通信
  • 从零到一:手把手教你用ICC完成RISC芯片的物理实现(含Milkway库创建与TLU+配置)
  • 别再傻傻分不清!一张图看懂SATA、M.2、NVMe硬盘到底差在哪(附选购指南)