当前位置：首页 > news >正文

5步搞定！BAAI/bge-m3+ChromaDB搭建语义搜索服务

news 2026/6/11 6:08:25

5步搞定！BAAI/bge-m3+ChromaDB搭建语义搜索服务

1. 项目概述与核心价值

BAAI/bge-m3是当前开源领域最强大的多语言语义嵌入模型之一，在MTEB榜单上表现优异。结合ChromaDB这一轻量级向量数据库，我们可以快速搭建一个高性能的本地语义搜索服务。

这套方案的核心优势：

多语言支持：完美处理中英文混合检索，支持100+语言
长文本优化：专门针对长文档语义理解进行优化
本地化部署：所有数据和模型存储在本地，无需网络请求
高性能检索：即使在CPU环境下也能实现毫秒级响应
简单易用：5个步骤即可完成完整部署

2. 环境准备与快速部署

2.1 基础环境要求

确保你的系统满足以下条件：

Python 3.8+
至少8GB内存（处理长文本建议16GB+）
10GB可用磁盘空间（用于模型缓存）

2.2 安装必要依赖

pip install sentence-transformers chromadb

3. 核心代码实现

3.1 初始化模型与数据库

import os import chromadb from chromadb.config import Settings from sentence_transformers import SentenceTransformer # 设置本地存储路径 current_dir = os.path.dirname(os.path.abspath(__file__)) MODEL_CACHE_PATH = os.path.join(current_dir, "bge_m3_model") DB_PERSIST_PATH = os.path.join(current_dir, "chroma_db_data") def initialize_model(): """初始化BGE-M3模型""" if not os.path.exists(MODEL_CACHE_PATH): os.makedirs(MODEL_CACHE_PATH) model = SentenceTransformer( 'BAAI/bge-m3', cache_folder=MODEL_CACHE_PATH ) return model

3.2 构建向量数据库

def setup_chroma_db(model, texts): """设置ChromaDB并存储文本向量""" chroma_client = chromadb.Client(Settings( persist_directory=DB_PERSIST_PATH, allow_reset=True )) # 创建集合（使用余弦相似度） collection = chroma_client.create_collection( name="bge_m3_collection", metadata={"hnsw:space": "cosine"} ) # 生成并存储嵌入 embeddings = model.encode(texts, normalize_embeddings=True).tolist() ids = [f"id_{i}" for i in range(len(texts))] collection.add( documents=texts, embeddings=embeddings, ids=ids ) return collection

4. 实现语义搜索功能

4.1 查询相似文本

def query_similar_texts(collection, model, query_text, n_results=5): """执行语义搜索查询""" query_embedding = model.encode( [query_text], normalize_embeddings=True ).tolist()[0] results = collection.query( query_embeddings=[query_embedding], n_results=n_results, include=["documents", "distances"] ) # 处理并返回结果 return [ { "text": text, "similarity": round(1.0 - distance, 4) } for text, distance in zip(results['documents'][0], results['distances'][0]) ]

4.2 实际应用示例

# 示例文本数据集 texts = [ "大语言模型在自然语言处理中发挥重要作用", "气候变化导致全球气温逐年上升", "深度学习需要强大的GPU计算资源", # 更多文本... ] # 初始化系统 model = initialize_model() collection = setup_chroma_db(model, texts) # 执行查询 results = query_similar_texts(collection, model, "AI在医疗领域的应用") for i, item in enumerate(results): print(f"#{i+1} [相似度: {item['similarity']:.2f}] {item['text']}")