当前位置：首页 > news >正文

Qwen3-Embedding-4B向量服务搭建：SGlang部署教程，快速体验多语言嵌入

news 2026/7/12 13:44:29

Qwen3-Embedding-4B向量服务搭建：SGlang部署教程，快速体验多语言嵌入

1. Qwen3-Embedding-4B模型介绍

Qwen3 Embedding模型系列是Qwen家族的最新专有模型，专门设计用于文本嵌入和排序任务。该系列基于Qwen3系列的密集基础模型，提供了从0.6B到8B不同规模的文本嵌入和重新排序模型。

核心优势：

多语言能力：支持超过100种语言，包括各种编程语言
长文本理解：上下文长度高达32k token
灵活维度：嵌入维度支持32到2560之间的自定义设置
高性能表现：在MTEB多语言排行榜上取得领先成绩

2. 环境准备与部署

2.1 系统要求

在开始部署前，请确保您的系统满足以下最低要求：

操作系统：Ubuntu 20.04/22.04或兼容Linux发行版
硬件配置：
- CPU：至少4核
- 内存：16GB以上
- GPU：NVIDIA显卡（推荐RTX 3090或更高）
- 显存：至少16GB（4B模型推理需求）

2.2 安装依赖

首先安装必要的系统依赖：

sudo apt-get update sudo apt-get install -y python3-pip git curl pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

然后安装SGlang和相关Python包：

pip install sglang transformers sentencepiece

3. SGlang服务部署

3.1 启动SGlang服务

使用以下命令启动SGlang服务：

python -m sglang.launch_server \ --model-path Qwen/Qwen3-Embedding-4B \ --port 30000

参数说明：

--model-path：指定模型路径（自动从Hugging Face下载）
--port：服务监听端口（默认为30000）

服务启动后，您将看到类似输出：

INFO: Started server process [12345] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:30000 (Press CTRL+C to quit)

3.2 验证服务状态

使用curl命令测试服务是否正常运行：

curl http://localhost:30000/health

正常响应应为：

{"status":"healthy"}

4. 模型调用与使用

4.1 Python客户端调用

以下是使用Python调用嵌入服务的完整示例：

import openai client = openai.Client( base_url="http://localhost:30000/v1", api_key="EMPTY" ) # 单文本嵌入 response = client.embeddings.create( model="Qwen3-Embedding-4B", input="How are you today", ) print(response.data[0].embedding[:10]) # 打印前10维向量 # 批量文本嵌入 batch_response = client.embeddings.create( model="Qwen3-Embedding-4B", input=["Hello world", "你好世界", "Bonjour le monde"], ) for emb in batch_response.data: print(f"文本长度: {len(emb.embedding)}")

4.2 自定义嵌入维度

Qwen3-Embedding-4B支持自定义输出维度（32到2560之间）：

response = client.embeddings.create( model="Qwen3-Embedding-4B", input="Custom dimension example", dimensions=512 # 指定输出512维向量 ) print(len(response.data[0].embedding)) # 输出: 512

5. 性能优化与实用技巧

5.1 批处理请求

为提高效率，建议使用批处理方式发送请求：

# 准备100条文本的列表 texts = [f"Sample text {i}" for i in range(100)] # 批量获取嵌入 batch_response = client.embeddings.create( model="Qwen3-Embedding-4B", input=texts, )

5.2 长文本处理

对于超过32k token的长文本，可以采用以下策略：

from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-Embedding-4B") def get_long_text_embedding(text, chunk_size=8192): # 分块处理长文本 tokens = tokenizer.encode(text) chunks = [tokens[i:i+chunk_size] for i in range(0, len(tokens), chunk_size)] # 获取各块嵌入 chunk_embeddings = [] for chunk in chunks: chunk_text = tokenizer.decode(chunk) response = client.embeddings.create( model="Qwen3-Embedding-4B", input=chunk_text ) chunk_embeddings.append(response.data[0].embedding) # 平均池化得到最终向量 return sum(chunk_embeddings) / len(chunk_embeddings)