当前位置：首页 > news >正文

零基础搭建RAG系统：手把手教你用Qwen3-Embedding-4B构建知识库

news 2026/7/16 3:17:24

零基础搭建RAG系统：手把手教你用Qwen3-Embedding-4B构建知识库

1. 认识Qwen3-Embedding-4B：你的智能语义理解助手

想象一下，你有一个能理解各种语言、能记住整本书内容、还能帮你快速找到相关资料的智能助手。这就是Qwen3-Embedding-4B能为你做的事情。作为阿里云通义千问家族的最新成员，这个专门用于文本理解的AI模型有三大超能力：

语言大师：能处理超过100种语言，包括中文、英文和各种编程语言
记忆超人：可以一次性理解长达32,000个单词的内容（相当于一本小册子）
搜索专家：能把文字转换成精准的数字向量，帮你快速找到相关内容

最棒的是，这个强大的工具现在可以通过简单的代码就能使用。接下来，我会带你从零开始，一步步搭建一个能自动整理和检索知识的智能系统。

2. 准备工作：搭建你的AI工作环境

2.1 快速启动Qwen3-Embedding-4B服务

让我们用最简单的方法启动这个AI模型。打开你的电脑终端（Windows用户用CMD或PowerShell，Mac/Linux用户用Terminal），输入以下命令：

# 拉取预装好的Docker镜像 docker pull qwen3-embedding-4b-mirror # 运行容器（确保你已经安装了Docker） docker run -d -p 30000:30000 --gpus all qwen3-embedding-4b-mirror

这个命令会下载一个已经配置好的环境，里面包含了运行Qwen3-Embedding-4B所需的一切。如果你的电脑有NVIDIA显卡（建议RTX 3060或更高），记得安装好显卡驱动和CUDA工具包。

2.2 验证服务是否正常运行

等待几分钟后，服务就应该启动完成了。我们可以用Python代码来测试一下：

import openai # 连接到本地服务 client = openai.Client( base_url="http://localhost:30000/v1", api_key="EMPTY" # 不需要真正的API key ) # 测试一个简单的句子 response = client.embeddings.create( model="Qwen3-Embedding-4B", input="如何学习人工智能", ) print(f"生成的向量长度：{len(response.data[0].embedding)}")

如果看到输出显示"生成的向量长度：2560"，恭喜你！你的AI语义理解引擎已经准备就绪。

3. 构建你的第一个知识库

3.1 准备知识文档

现在，我们来创建一个简单的技术文档库。在你的工作目录下新建一个文件夹，比如叫"my_knowledge_base"，然后放入一些文本文件：

my_knowledge_base/ ├── 机器学习基础.txt ├── Python编程技巧.md └── 深度学习论文摘要.pdf

每个文件可以包含相关主题的内容。比如"机器学习基础.txt"可能包含：

监督学习是指从标记数据中学习的机器学习方法，常见算法包括： - 线性回归：用于预测连续值 - 逻辑回归：用于分类问题 - 支持向量机(SVM)：强大的分类器

3.2 将文档转换为向量

我们需要写一个小程序，把所有这些文档转换成Qwen3-Embedding-4B能理解的向量形式：

import os from openai import OpenAI import numpy as np client = OpenAI(base_url="http://localhost:30000/v1", api_key="EMPTY") def process_documents(folder_path): knowledge_vectors = {} for filename in os.listdir(folder_path): filepath = os.path.join(folder_path, filename) with open(filepath, 'r', encoding='utf-8') as f: content = f.read() # 为检索生成向量 response = client.embeddings.create( model="Qwen3-Embedding-4B", input=f"为检索生成向量：{content}", ) knowledge_vectors[filename] = { 'content': content, 'vector': response.data[0].embedding } return knowledge_vectors # 处理我们的知识库文件夹 knowledge_base = process_documents("my_knowledge_base")

这段代码会读取文件夹中的每个文件，用Qwen3-Embedding-4B将其内容转换为2560维的向量，并保存起来供后续检索使用。

4. 实现智能检索功能

4.1 构建简单的检索系统

有了向量化的知识库，我们现在可以创建一个检索功能：

from sklearn.metrics.pairwise import cosine_similarity def search_knowledge(query, knowledge_base, top_k=3): # 将查询语句也转换为向量 response = client.embeddings.create( model="Qwen3-Embedding-4B", input=f"为检索生成向量：{query}", ) query_vector = np.array(response.data[0].embedding).reshape(1, -1) # 计算与所有文档的相似度 results = [] for filename, data in knowledge_base.items(): doc_vector = np.array(data['vector']).reshape(1, -1) similarity = cosine_similarity(query_vector, doc_vector)[0][0] results.append((filename, similarity, data['content'])) # 按相似度排序，返回最相关的几个结果 results.sort(key=lambda x: x[1], reverse=True) return results[:top_k]

4.2 测试你的知识库

现在，让我们试试这个检索系统：

# 搜索关于分类算法的信息 results = search_knowledge("有哪些常见的分类方法？", knowledge_base) # 打印结果 for i, (filename, score, content) in enumerate(results, 1): print(f"\n结果 {i}: {filename} (相似度: {score:.3f})") print("内容摘要:", content[:200] + "...") # 只打印前200字符

你应该能看到系统返回了与分类算法最相关的文档片段，即使你的查询语句和文档中的原话并不完全一致。

5. 进阶技巧：提升你的RAG系统

5.1 处理长文档的策略

Qwen3-Embedding-4B支持长达32k的上下文，但对于特别长的文档，我们可以采用分段处理：

def split_text(text, max_length=10000): """将长文本分割成适当大小的块""" words = text.split() chunks = [] current_chunk = [] current_length = 0 for word in words: if current_length + len(word) + 1 > max_length: chunks.append(" ".join(current_chunk)) current_chunk = [] current_length = 0 current_chunk.append(word) current_length += len(word) + 1 if current_chunk: chunks.append(" ".join(current_chunk)) return chunks # 使用分段处理长文档 long_document = "..." # 你的长文档内容 chunks = split_text(long_document) chunk_vectors = [client.embeddings.create(model="Qwen3-Embedding-4B", input=chunk).data[0].embedding for chunk in chunks]

5.2 使用指令优化检索质量

Qwen3-Embedding-4B支持通过指令调整向量生成方式，这在不同的应用场景中非常有用：

# 为不同任务使用不同指令 retrieval_vector = client.embeddings.create( model="Qwen3-Embedding-4B", input="为检索生成向量：机器学习入门", ).data[0].embedding classification_vector = client.embeddings.create( model="Qwen3-Embedding-4B", input="为分类生成向量：机器学习入门", ).data[0].embedding print("相同内容不同指令的向量相似度:", cosine_similarity([retrieval_vector], [classification_vector])[0][0])

你会发现，同样的内容在不同指令下生成的向量会有明显差异，这使得模型能更好地适应各种任务。