当前位置：首页 > news >正文

embeddinggemma-300m部署教程：ollama镜像免配置+WebUI多用户会话隔离配置

news 2026/3/26 20:21:22

embeddinggemma-300m部署教程：ollama镜像免配置+WebUI多用户会话隔离配置

想快速搭建一个属于自己的文本向量化服务吗？今天给大家分享一个超级简单的部署方案——使用Ollama一键部署embeddinggemma-300m模型，再配上WebUI界面，还能实现多用户会话隔离。整个过程不需要复杂的配置，小白也能轻松搞定。

EmbeddingGemma是谷歌推出的开源嵌入模型，虽然只有3亿参数，但能力可不小。它基于Gemma 3架构，能生成高质量的文本向量表示，特别适合用来做搜索、分类、聚类这些任务。最棒的是它体积小巧，在普通电脑上就能跑起来，让每个人都能用上先进的AI技术。

下面我就手把手带你完成整个部署过程，从环境准备到实际使用，每一步都有详细说明。

1. 环境准备与快速部署

1.1 系统要求

在开始之前，先确认你的环境是否满足要求：

操作系统：Linux（推荐Ubuntu 20.04+）、macOS、Windows（WSL2）
内存：至少8GB RAM（模型本身不大，但运行需要一些内存）
存储空间：2GB以上可用空间
网络：能正常访问互联网（下载模型需要）

如果你用的是Windows系统，建议安装WSL2（Windows Subsystem for Linux），这样能获得更好的兼容性和性能。

1.2 安装Ollama

Ollama是一个专门用来运行大模型的工具，安装特别简单。打开终端（Linux/macOS）或WSL2终端（Windows），执行下面这条命令：

curl -fsSL https://ollama.ai/install.sh | sh

这条命令会自动下载并安装Ollama。安装完成后，你可以用下面的命令检查是否安装成功：

ollama --version

如果能看到版本号，说明安装成功了。

1.3 拉取embeddinggemma-300m镜像

Ollama安装好后，接下来就是拉取我们需要的模型。embeddinggemma-300m已经有人做好了Ollama镜像，我们直接拉取就行：

ollama pull embeddinggemma:300m

这个命令会从Ollama的模型库下载embeddinggemma-300m模型。下载时间取决于你的网速，模型大小约1.2GB，一般几分钟到十几分钟就能下完。

下载完成后，你可以用下面的命令查看已安装的模型：

ollama list

应该能看到embeddinggemma:300m出现在列表里。

1.4 启动模型服务

模型下载好了，现在启动服务：

ollama run embeddinggemma:300m

第一次运行可能会稍微慢一点，因为要加载模型到内存。看到类似下面的输出，就说明服务启动成功了：

>>> Send a message (/? for help)

这时候模型已经在运行了，你可以直接在这里测试。不过我们更想要一个Web界面，所以先按Ctrl+C退出，进入下一步。

2. 配置WebUI界面

2.1 安装WebUI工具

虽然Ollama自带简单的Web界面，但功能比较基础。我推荐使用open-webui这个开源项目，它功能更强大，界面也更友好。

首先确保你已经安装了Docker和Docker Compose。如果没有安装，可以参考官方文档安装。然后执行下面的命令：

docker run -d -p 3000:8080 \ -v open-webui:/app/backend/data \ --name open-webui \ --restart always \ ghcr.io/open-webui/open-webui:main

这个命令会拉取open-webui的Docker镜像并启动服务。-p 3000:8080表示把容器的8080端口映射到主机的3000端口，-v open-webui:/app/backend/data会把数据持久化保存。

2.2 连接Ollama服务

启动open-webui后，打开浏览器访问http://localhost:3000（如果你的服务不在本机，把localhost换成对应的IP地址）。

第一次访问需要注册账号。注册登录后，进入设置页面（通常右上角有设置图标）。

在设置里找到Ollama Base URL，填写你的Ollama服务地址。如果Ollama和open-webui在同一台机器上，就填http://host.docker.internal:11434；如果在不同机器，填对应的IP和端口（默认11434）。

保存设置后，回到主界面，应该能看到可用的模型列表里有embeddinggemma:300m。

2.3 配置多用户会话隔离

open-webui默认就支持多用户，每个用户有自己的对话历史。但如果你想进一步加强隔离，可以配置不同的模型实例。

编辑Docker Compose文件（如果你用Docker Compose部署），为不同用户组分配不同的Ollama实例：

version: '3.8' services: open-webui: image: ghcr.io/open-webui/open-webui:main ports: - "3000:8080" volumes: - open-webui-data:/app/backend/data environment: - OLLAMA_BASE_URL=http://ollama:11434 depends_on: - ollama ollama: image: ollama/ollama:latest volumes: - ollama-data:/root/.ollama # 可以在这里配置资源限制，实现软隔离

更简单的方法是使用open-webui的用户权限系统。管理员可以在后台创建用户组，为不同组分配不同的模型访问权限。这样既能实现隔离，又不会太复杂。

3. 快速上手使用

3.1 基本使用方式

现在一切就绪，我们来试试embeddinggemma-300m能做什么。打开open-webui界面，选择embeddinggemma:300m模型。

这个模型主要用来生成文本的向量表示，所以不是用来聊天的。你输入一段文本，它会返回对应的向量。比如输入：

今天天气真好，适合出去散步

模型会返回一个向量（一堆数字），这个向量就代表了这句话的语义信息。

3.2 实际应用示例

向量有什么用呢？最直接的就是计算相似度。比如你有三句话：

"我喜欢吃苹果"
"苹果是一种水果"
"我今天开车去上班"

用embeddinggemma-300m把这三句话都转换成向量，然后计算向量之间的余弦相似度。你会发现第1句和第2句的相似度比较高（都关于苹果），而和第3句的相似度很低。

下面是一个简单的Python示例，展示如何用Ollama的API获取向量并计算相似度：

import requests import numpy as np from sklearn.metrics.pairwise import cosine_similarity # Ollama API地址 OLLAMA_URL = "http://localhost:11434" def get_embedding(text): """获取文本的向量表示""" response = requests.post( f"{OLLAMA_URL}/api/embeddings", json={ "model": "embeddinggemma:300m", "prompt": text } ) return response.json()["embedding"] # 三句话 texts = [ "我喜欢吃苹果", "苹果是一种水果", "我今天开车去上班" ] # 获取向量 embeddings = [get_embedding(text) for text in texts] # 计算相似度矩阵 similarity_matrix = cosine_similarity(embeddings) print("相似度矩阵：") print(similarity_matrix)

运行这个代码，你会看到一个3x3的矩阵，对角线是1（自己和自己完全相似），其他位置是不同句子之间的相似度。

3.3 在WebUI中验证相似度

open-webui也提供了相似度计算功能。在聊天界面，你可以这样测试：

先输入第一句话，获取它的向量
再输入第二句话，同时询问与第一句的相似度

系统会自动计算并告诉你相似度得分。虽然不如代码灵活，但快速验证足够了。

4. 实用技巧与进阶配置

4.1 性能优化建议

embeddinggemma-300m虽然不大，但如果你需要处理大量文本，还是要注意性能：

批量处理：如果需要处理很多文本，尽量批量发送，减少API调用次数
缓存结果：相同的文本可以缓存向量结果，避免重复计算
调整参数：Ollama支持一些运行参数，比如--num-threads设置线程数

启动Ollama时可以这样调整：

ollama run embeddinggemma:300m --num-threads 4

4.2 集成到其他应用

有了embedding服务，你可以把它集成到各种应用中。比如：

文档搜索系统：把文档库的所有文档都转换成向量存起来，用户搜索时，把搜索词也转换成向量，然后找最相似的文档。

智能客服：把常见问题及答案转换成向量，用户提问时，快速找到最相关的问题给出答案。

内容推荐：分析用户历史行为（浏览、点击等）的文本描述，生成向量，推荐相似内容。

下面是一个简单的Flask应用示例，提供向量化API：

from flask import Flask, request, jsonify import requests app = Flask(__name__) OLLAMA_URL = "http://localhost:11434" @app.route('/embed', methods=['POST']) def embed(): """向量化API接口""" data = request.json text = data.get('text', '') if not text: return jsonify({"error": "No text provided"}), 400 # 调用Ollama获取向量 response = requests.post( f"{OLLAMA_URL}/api/embeddings", json={ "model": "embeddinggemma:300m", "prompt": text } ) if response.status_code == 200: return jsonify(response.json()) else: return jsonify({"error": "Embedding failed"}), 500 if __name__ == '__main__': app.run(host='0.0.0.0', port=5000)

这样其他应用就可以通过HTTP API调用你的embedding服务了。