当前位置：首页 > news >正文

EmbeddingGemma实战：用Ollama快速搭建问答系统向量库

news 2026/7/9 5:05:44

EmbeddingGemma实战：用Ollama快速搭建问答系统向量库

1. 环境准备与快速部署

1.1 系统要求与安装

在开始之前，确保你的设备满足以下基本要求：

操作系统：Windows 10/11、macOS 10.15+ 或 Linux Ubuntu 18.04+
内存：至少8GB RAM（推荐16GB以上）
存储：至少5GB可用空间（固态硬盘更佳）
网络：稳定的互联网连接（用于下载模型）

Ollama的安装非常简单，只需几个步骤：

访问 Ollama官网下载页面
选择对应操作系统的安装包
下载后双击运行安装程序
完成安装后，Ollama会自动在后台运行

安装完成后，你可以在系统托盘（Windows/macOS）或终端（Linux）中看到Ollama的图标，表示服务已成功启动。

1.2 部署EmbeddingGemma模型

打开终端（Windows用户可以使用PowerShell或CMD），输入以下命令拉取EmbeddingGemma模型：

ollama pull embeddinggemma:300m

这个命令会从Ollama的模型库中下载embeddinggemma-300m模型。下载时间取决于你的网络速度，通常需要几分钟到十几分钟。

下载完成后，你可以验证模型是否成功安装：

ollama list

如果看到embeddinggemma:300m在列表中，说明模型已准备就绪。

2. EmbeddingGemma核心功能体验

2.1 文本向量化基础操作

EmbeddingGemma的核心功能是将文本转换为高维向量表示。让我们通过一个简单示例来体验这个功能：

import requests import json # Ollama服务的API地址 OLLAMA_URL = "http://localhost:11434/api/embed" # 准备请求数据 payload = { "model": "embeddinggemma:300m", "input": ["人工智能是未来的发展趋势", "机器学习是AI的重要分支"], "truncate": True } # 发送请求 response = requests.post(OLLAMA_URL, json=payload) if response.status_code == 200: result = response.json() embeddings = result["embeddings"] print(f"生成嵌入向量数量: {len(embeddings)}") print(f"每个向量的维度: {len(embeddings[0])}") else: print(f"请求失败: {response.status_code}")

运行这段代码，你将得到两个文本的向量表示，每个向量都是高维的数值数组，可以用于后续的相似度计算和检索任务。

2.2 相似度计算实战

有了文本向量，我们就可以计算文本之间的相似度。以下是一个完整的相似度计算示例：

import numpy as np from sklearn.metrics.pairwise import cosine_similarity def calculate_similarity(text1, text2): # 获取两个文本的嵌入向量 payload = { "model": "embeddinggemma:300m", "input": [text1, text2], "truncate": True } response = requests.post(OLLAMA_URL, json=payload) result = response.json() # 提取向量并计算余弦相似度 vec1 = np.array(result["embeddings"][0]).reshape(1, -1) vec2 = np.array(result["embeddings"][1]).reshape(1, -1) similarity = cosine_similarity(vec1, vec2)[0][0] return similarity # 测试相似度计算 text_a = "我喜欢吃苹果" text_b = "苹果是一种水果" text_c = "今天天气真好" similarity_ab = calculate_similarity(text_a, text_b) similarity_ac = calculate_similarity(text_a, text_c) print(f"'{text_a}' 与 '{text_b}' 的相似度: {similarity_ab:.4f}") print(f"'{text_a}' 与 '{text_c}' 的相似度: {similarity_ac:.4f}")

这个例子展示了如何计算不同文本之间的语义相似度，语义相近的文本会有更高的相似度分数。

3. 构建问答系统向量库

3.1 准备知识库文档

首先，我们需要准备问答对数据。假设我们有一个简单的技术问答知识库：

qa_knowledge_base = [ { "question": "什么是人工智能？", "answer": "人工智能是计算机科学的一个分支，致力于创建能够执行通常需要人类智能的任务的系统。" }, { "question": "机器学习有哪些类型？", "answer": "机器学习主要分为监督学习、无监督学习和强化学习三种类型。" }, { "question": "深度学习与机器学习有什么区别？", "answer": "深度学习是机器学习的一个子领域，使用多层神经网络来处理复杂模式识别任务。" }, { "question": "什么是自然语言处理？", "answer": "自然语言处理是人工智能的一个领域，专注于让计算机理解、解释和生成人类语言。" } ]

3.2 创建向量数据库

接下来，我们将知识库中的问题转换为向量并建立索引：

import chromadb from chromadb.config import Settings # 初始化Chromadb客户端 client = chromadb.Client(Settings( chroma_db_impl="duckdb+parquet", persist_directory="./vector_db" )) # 创建或获取集合 collection = client.create_collection(name="qa_embeddings") # 为知识库生成嵌入向量并存储 questions = [item["question"] for item in qa_knowledge_base] answers = [item["answer"] for item in qa_knowledge_base] ids = [f"qa_{i}" for i in range(len(qa_knowledge_base))] # 批量获取嵌入向量 def get_batch_embeddings(texts, batch_size=10): all_embeddings = [] for i in range(0, len(texts), batch_size): batch = texts[i:i+batch_size] payload = { "model": "embeddinggemma:300m", "input": batch, "truncate": True } response = requests.post(OLLAMA_URL, json=payload) result = response.json() all_embeddings.extend(result["embeddings"]) return all_embeddings # 获取所有问题的嵌入向量 question_embeddings = get_batch_embeddings(questions) # 添加到向量数据库 collection.add( embeddings=question_embeddings, documents=answers, metadatas=[{"question": q} for q in questions], ids=ids ) print("向量数据库构建完成！")

3.3 实现智能问答功能

现在我们可以实现一个简单的问答系统：

def ask_question(user_question, top_k=3): # 获取用户问题的嵌入向量 payload = { "model": "embeddinggemma:300m", "input": [user_question], "truncate": True } response = requests.post(OLLAMA_URL, json=payload) query_embedding = response.json()["embeddings"][0] # 在向量数据库中搜索最相似的问题 results = collection.query( query_embeddings=[query_embedding], n_results=top_k ) # 返回最相关的答案 if results['documents']: best_answer = results['documents'][0][0] similarity = results['distances'][0][0] return best_answer, similarity else: return "抱歉，我没有找到相关答案。", 0 # 测试问答系统 test_questions = [ "请解释人工智能", "机器学习分类有哪些？", "自然语言处理是什么？" ] for question in test_questions: answer, similarity = ask_question(question) print(f"问题: {question}") print(f"回答: {answer}") print(f"相似度: {similarity:.4f}") print("-" * 50)

4. 实用技巧与优化建议

4.1 批量处理优化

当处理大量文本时，使用批量处理可以显著提高效率：

def optimize_batch_processing(texts, max_batch_size=20): """ 优化批量文本处理 """ results = [] for i in range(0, len(texts), max_batch_size): batch = texts[i:i+max_batch_size] payload = { "model": "embeddinggemma:300m", "input": batch, "truncate": True } response = requests.post(OLLAMA_URL, json=payload) if response.status_code == 200: batch_results = response.json()["embeddings"] results.extend(batch_results) else: # 处理错误情况 print(f"批量处理失败: {response.status_code}") # 可以添加重试逻辑 return results

4.2 相似度阈值设置

为了提高问答系统的准确性，建议设置相似度阈值：

def smart_qa_system(question, similarity_threshold=0.7): answer, similarity = ask_question(question) if similarity < similarity_threshold: return "抱歉，我不确定如何回答这个问题。您可以尝试换种方式提问，或者联系人工客服。" else: return answer # 测试阈值功能 low_similarity_question = "今天的天气怎么样？" response = smart_qa_system(low_similarity_question) print(f"问题: {low_similarity_question}") print(f"回答: {response}")

4.3 性能监控与日志

添加简单的性能监控和日志记录：

import time import logging logging.basicConfig(level=logging.INFO) logger = logging.getLogger(__name__) def timed_embedding_request(texts): start_time = time.time() payload = { "model": "embeddinggemma:300m", "input": texts, "truncate": True } response = requests.post(OLLAMA_URL, json=payload) end_time = time.time() processing_time = end_time - start_time logger.info(f"处理 {len(texts)} 个文本耗时: {processing_time:.2f}秒") if response.status_code == 200: return response.json()["embeddings"] else: logger.error(f"请求失败: {response.status_code}") return None

5. 常见问题与解决方案

5.1 模型加载失败

如果遇到模型加载问题，可以尝试重新拉取模型：

# 删除现有模型 ollama rm embeddinggemma:300m # 重新拉取 ollama pull embeddinggemma:300m

5.2 内存不足处理

EmbeddingGemma虽然轻量，但处理大量数据时仍可能遇到内存问题：

def memory_friendly_processing(texts, chunk_size=50): """ 内存友好的分批处理 """ all_embeddings = [] for i in range(0, len(texts), chunk_size): chunk = texts[i:i+chunk_size] embeddings = get_batch_embeddings(chunk) all_embeddings.extend(embeddings) # 释放内存 del embeddings if i % 200 == 0: print(f"已处理 {i + len(chunk)}/{len(texts)} 个文本") return all_embeddings

5.3 API连接问题

确保Ollama服务正常运行：

def check_ollama_health(): try: response = requests.get("http://localhost:11434/api/tags", timeout=5) return response.status_code == 200 except requests.exceptions.ConnectionError: print("无法连接到Ollama服务，请确保服务已启动") return False except requests.exceptions.Timeout: print("连接Ollama服务超时") return False # 使用前检查服务状态 if check_ollama_health(): print("Ollama服务正常运行") else: print("请启动Ollama服务: ollama serve")