当前位置：首页 > news >正文

向量数据库与嵌入模型

news 2026/6/15 0:34:51

参考：https://www.cnblogs.com/rude3knife/p/chroma_tutorial.html

向量数据库其实最早在传统的人工智能和机器学习场景中就有所应用。在大模型兴起后，由于目前大模型的token数限制，很多开发者倾向于将数据量庞大的知识、新闻、文献、语料等先通过嵌入（embedding）算法转变为向量数据，然后存储在Chroma等向量数据库中。当用户在大模型输入问题后，将问题本身也embedding，转化为向量，在向量数据库中查找与之最匹配的相关知识，组成大模型的上下文，将其输入给大模型，最终返回大模型处理后的文本给用户，这种方式不仅降低大模型的计算量，提高响应速度，也降低成本，并避免了大模型的tokens限制，是一种简单高效的处理手段。此外，向量数据库还在大模型记忆存储等领域发挥其不可替代的作用。

由于大模型的火热，现在市面上的向量数据库众多，主流的向量数据库对比如下所示：

向量数据库	URL	GitHub Star	Language
chroma	https://github.com/chroma-core/chroma	7.4K	Python
milvus	https://github.com/milvus-io/milvus	21.5K	Go/Python/C++
pinecone	https://www.pinecone.io/	❌	❌
qdrant	https://github.com/qdrant/qdrant	11.8K	Rust
typesense	https://github.com/typesense/typesense	12.9K	C++
weaviate	https://github.com/weaviate/weaviate	6.9K	Go

采用Chroma向量数据库

pip install chromadb

智谱清言提供了嵌入模型Embedding API：embedding-3

import os
from dotenv import load_dotenv, find_dotenv
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_community.document_loaders.pdf import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter_ = load_dotenv(find_dotenv())# 读取原始文档
# raw_documents_sanguo = TextLoader('/Users/rude3knife/Desktop/三国演义.txt', encoding='utf-16').load()
# raw_documents_xiyou = TextLoader('/Users/rude3knife/Desktop/西游记.txt', encoding='utf-16').load()# # 分割文档
# text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=0)
# documents_sanguo = text_splitter.split_documents(raw_documents_sanguo)
# documents_xiyou = text_splitter.split_documents(raw_documents_xiyou)
# documents = documents_sanguo + documents_xiyou

loaders = [PyPDFLoader("D:/Users/yhexie/Downloads/三国演义.pdf"), # Duplicate documents on purpose - messy dataPyPDFLoader("D:/Users/yhexie/Downloads/西游记.pdf"),]
docs = []
for loader in loaders:docs.extend(loader.load())
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=150)
splits = text_splitter.split_documents(docs)
documents= splits
print("documents nums:", documents.__len__())# 生成向量（embedding）
embeddings = OpenAIEmbeddings(model="embedding-3",openai_api_key=os.getenv("ZHIPUAI_API_KEY"),openai_api_base="https://open.bigmodel.cn/api/paas/v4/",chunk_size=50,  # 智谱 embedding 单次最多64条
)db = Chroma.from_documents(documents, embedding=embeddings)# 检索
query = "美猴王是谁？"
docs = db.similarity_search(query, k=5)# 打印结果
for doc in docs:print("===")print("metadata:", doc.metadata)print("page_content:", doc.page_content)