当前位置：首页 > news >正文

GLM-4.7-Flash实战教程：基于该模型构建私有化知识库RAG应用全流程

news 2026/5/4 7:09:10

GLM-4.7-Flash实战教程：基于该模型构建私有化知识库RAG应用全流程

1. 引言：为什么你需要一个私有知识库？

想象一下这个场景：你是一家公司的技术负责人，团队每天都会产生大量的技术文档、会议纪要、产品需求。每当新同事入职，或者老员工需要查找某个历史项目的细节时，大家只能在海量的文件、聊天记录和邮件里“大海捞针”。这不仅效率低下，而且信息往往不准确、不完整。

更常见的是，当你向通用的大模型提问公司内部的具体事务时，比如“我们去年Q3的产品架构评审会结论是什么？”，它要么回答“我不知道”，要么开始一本正经地胡说八道。

这就是我们今天要解决的问题。借助强大的GLM-4.7-Flash模型，我们可以轻松构建一个属于你自己的、聪明的“企业大脑”——一个私有化知识库问答系统。它不仅能理解你公司的专属知识，还能像专家一样准确回答相关问题。本文将手把手带你完成从零到一的完整搭建过程。

2. 认识我们的核心引擎：GLM-4.7-Flash

在开始动手之前，我们先快速了解一下即将使用的“发动机”。

2.1 模型简介

GLM-4.7-Flash是智谱AI推出的新一代开源大语言模型。它最大的特点是采用了MoE（混合专家）架构。你可以把它想象成一个超级团队：团队里有不同领域的专家（比如编程专家、文案专家、逻辑推理专家），每次遇到问题，只请最相关的几位专家来工作，而不是让整个团队都上。这使得它在保持强大能力的同时，推理速度非常快，特别适合我们这种需要实时响应的应用场景。

2.2 为什么选择它来构建知识库？

强大的中文理解与生成：针对中文进行了深度优化，处理中文文档、理解中文问题得心应手。
高效推理：“Flash”版本专为速度优化，能快速响应用户查询。
开源与可控：完全私有化部署，你的所有数据和知识都不会离开你的服务器，安全可控。
技术成熟：基于vLLM推理引擎部署，稳定性和性能都有保障。

简单来说，它就是为我们构建私有知识库量身定制的利器。

3. 环境准备与快速启动

我们将使用一个预配置好的Docker镜像，它已经集成了GLM-4.7-Flash模型、vLLM引擎和Web界面，真正做到开箱即用。

3.1 启动服务

假设你已经通过CSDN星图平台或其他方式获取并启动了该镜像。启动后，你需要找到服务的访问地址。

通常，Web界面的访问地址格式如下（具体端口请以你的实际环境为准）：

https://[你的服务器地址]:7860

例如：https://gpu-pod6971e8ad205cbf05c2f87992-7860.web.gpu.csdn.net/

打开浏览器访问这个地址，你会看到一个简洁的聊天界面。页面顶部的状态栏会显示模型状态：

🟢 模型就绪：恭喜，一切正常，可以开始对话了。
🟡 加载中：模型正在加载，首次启动可能需要30秒左右，请耐心等待，无需刷新页面。

3.2 基础功能测试

在聊天框里输入“你好，请介绍一下你自己”，看看模型是否能流畅回复。这个步骤是为了确认核心的文本生成服务运行正常，这是我们后续所有工作的基础。

4. 构建知识库的核心：RAG技术原理浅析

在直接敲代码之前，花几分钟理解背后的原理，会让你后面的操作更加清晰。

RAG的全称是检索增强生成。它的工作流程就像一位聪明的研究员：

检索：当用户提出一个问题时，系统不会直接让模型“硬想”，而是先去你的知识库（一堆文档）里快速查找与问题最相关的几段资料。
增强：把这些找到的相关资料，和用户原来的问题打包在一起，形成一个新的、更详细的“提示”。
生成：把这个包含背景资料的“提示”交给大模型，让它基于这些确凿的依据来生成答案。

这样做的好处显而易见：答案更准确、更专业，而且可以引用知识库里的具体内容，避免了模型“凭空捏造”。

我们的任务，就是实现这个“检索-增强-生成”的自动化流程。

5. 实战第一步：准备你的知识库文档

知识库的质量直接决定了问答系统的效果。我们首先来准备“原料”。

5.1 文档格式与内容

格式支持：纯文本（.txt）、Markdown（.md）、PDF、Word文档、PowerPoint等都是可以的。对于初学者，建议从.txt或.md文件开始，处理起来最简单。
内容建议：可以是产品说明书、公司制度、项目Wiki、技术博客、常见的Q&A列表等。确保文档内容清晰，段落结构分明。
存放位置：在你的项目目录下创建一个文件夹，比如叫做my_knowledge_base，把所有文档放进去。

示例文档 (company_intro.md)：

# 公司简介 智谱科技成立于2023年，专注于人工智能大模型研发与应用。 我们的核心产品是GLM系列大模型，致力于降低AI使用门槛。 # 主要团队 - 研发中心：位于北京，负责核心算法研究。 - 市场部：负责产品推广与客户对接，总部在上海。

5.2 文档预处理

机器无法直接理解一整篇文档，我们需要把文档“切碎”成一段段有意义的文本块，这个过程叫文本分割。

# 示例：使用简单的文本分割 def split_document(text, chunk_size=500, chunk_overlap=50): """ 将长文本分割成重叠的小块。 chunk_size: 每个文本块的最大长度（字符数） chunk_overlap: 块与块之间重叠的长度，用于保持上下文连贯 """ chunks = [] start = 0 text_length = len(text) while start < text_length: end = start + chunk_size # 截取文本块 chunk = text[start:end] chunks.append(chunk) # 移动起始位置，设置重叠 start = end - chunk_overlap return chunks # 读取并分割你的文档 with open(‘my_knowledge_base/company_intro.md‘, ‘r‘, encoding=‘utf-8‘) as f: content = f.read() document_chunks = split_document(content) print(f“文档被分割成了 {len(document_chunks)} 个文本块。“)

6. 实战第二步：创建向量数据库（知识库的“记忆”）

切分好的文本块，需要转换成计算机能理解和快速检索的形式——向量。我们将使用ChromaDB，一个轻量易用的向量数据库。

6.1 安装必要库

在你的Jupyter Notebook或终端中执行：

pip install chromadb sentence-transformers

6.2 构建向量数据库

import chromadb from chromadb.config import Settings from sentence_transformers import SentenceTransformer import uuid # 1. 初始化嵌入模型（用于将文本转为向量） # 我们使用一个轻量级的中文模型 print(“正在加载嵌入模型...“) embed_model = SentenceTransformer(‘paraphrase-multilingual-MiniLM-L12-v2‘) # 2. 初始化ChromaDB客户端和集合（‘集合‘相当于一个知识库表） chroma_client = chromadb.Client(Settings(chroma_db_impl=“duckdb+parquet“, persist_directory=“./chroma_db“)) # 数据持久化到本地 # 创建或获取一个集合 knowledge_collection = chroma_client.create_collection(name=“my_company_kb“) # 3. 为每个文本块生成向量并存入数据库 print(“正在将文档块添加到向量数据库...“) ids = [] documents = [] embeddings = [] for i, chunk in enumerate(document_chunks): # 生成文本块的向量 embedding = embed_model.encode(chunk).tolist() # 收集数据 ids.append(str(uuid.uuid4())) # 生成唯一ID documents.append(chunk) # 原始文本 embeddings.append(embedding) # 向量 # 批量添加到集合 knowledge_collection.add( ids=ids, documents=documents, embeddings=embeddings ) print(f“成功将 {len(documents)} 个文档块存入向量数据库。”) chroma_client.persist() # 持久化保存到磁盘

这段代码做了三件事：

加载了一个文本转向量的模型。
连接了ChromaDB数据库，并创建了一个名为my_company_kb的“集合”来存放知识。
遍历我们之前分割好的所有文本块，把它们转换成向量，然后存进数据库。

现在，你的知识库已经有了“记忆”。

7. 实战第三步：实现RAG问答链

这是最核心的一步，我们将把检索、增强、生成三个环节串联起来。

7.1 检索相关文档

当用户提问时，我们先从向量数据库中找出最相关的几个文本块。

def retrieve_relevant_docs(query, collection, embed_model, top_k=3): """ 检索与问题最相关的文档块。 query: 用户问题 collection: 向量数据库集合 top_k: 返回最相关的K个结果 """ # 将用户问题也转换成向量 query_embedding = embed_model.encode(query).tolist() # 在数据库中搜索最相似的向量 results = collection.query( query_embeddings=[query_embedding], n_results=top_k ) # results[‘documents‘] 是一个列表的列表，我们取出第一个（也是唯一一个）查询的结果 relevant_docs = results[‘documents‘][0] return relevant_docs

7.2 组装提示词并调用GLM-4.7-Flash

找到相关资料后，我们需要精心设计一个“提示词”，引导模型根据资料回答问题。

import requests import json def ask_glm_with_rag(user_question, relevant_docs): """ 结合检索到的文档，向GLM-4.7-Flash模型提问。 """ # 1. 构建增强后的系统提示 context_text = “\n\n---\n\n“.join(relevant_docs) # 用分隔符连接相关文档 system_prompt = f“““你是一个专业的助手，请严格根据以下提供的背景信息来回答问题。 如果信息不足以回答问题，请直接说‘根据已有信息无法回答该问题‘，不要编造信息。 【相关背景信息】 {context_text} “““ # 2. 准备调用GLM-4.7-Flash的API（镜像已提供OpenAI兼容接口） api_url = “http://127.0.0.1:8000/v1/chat/completions“ # 镜像内部的API地址 headers = { “Content-Type“: “application/json“ } payload = { “model“: “/root/.cache/huggingface/ZhipuAI/GLM-4.7-Flash“, “messages“: [ {“role“: “system“, “content“: system_prompt}, {“role“: “user“, “content“: user_question} ], “temperature“: 0.1, # 温度调低，让答案更稳定、更基于资料 “max_tokens“: 1024, “stream“: False } # 3. 发送请求 try: response = requests.post(api_url, headers=headers, data=json.dumps(payload), timeout=30) response.raise_for_status() # 检查请求是否成功 result = response.json() answer = result[‘choices‘][0][‘message‘][‘content‘] return answer.strip() except requests.exceptions.RequestException as e: return f“请求模型API时出错：{e}“ except KeyError as e: return f“解析模型响应时出错：{e}“

7.3 完整流程整合

现在，让我们把检索和生成组合成一个完整的函数。

def rag_qa_pipeline(user_question): """ RAG问答完整流程。 1. 检索相关文档。 2. 调用大模型生成基于文档的答案。 """ print(f“用户问题：{user_question}“) print(“正在检索相关文档...“) # 步骤1：检索 relevant_docs = retrieve_relevant_docs(user_question, knowledge_collection, embed_model, top_k=2) print(f“检索到 {len(relevant_docs)} 条相关文档片段。“) # 步骤2：生成 print(“正在生成答案...“) answer = ask_glm_with_rag(user_question, relevant_docs) return answer # 让我们来试一下！ question = “智谱科技是做什么的？“ answer = rag_qa_pipeline(question) print(“\n“ + “=“*50) print(“最终答案：\n“) print(answer)

运行这段代码，你会看到系统首先从我们之前录入的company_intro.md中检索出关于公司简介的片段，然后GLM-4.7-Flash模型根据这些片段生成了一个准确的答案。试试问“研发中心在哪？”，它应该能准确地回答“在北京”。

8. 进阶优化与实用技巧

一个基础的RAG系统已经搭建完成。但要让它更好用，我们还可以做一些优化。

8.1 提升检索质量

更好的嵌入模型：可以尝试更强大的中文嵌入模型，如BAAI/bge-large-zh，它能生成质量更高的向量，让检索更精准。
更智能的文本分割：使用专门的文本分割库（如langchain的RecursiveCharacterTextSplitter），能更好地按段落、标题等语义边界进行分割，避免切断一个完整的句子或概念。

8.2 优化提示词工程

我们之前的系统提示词已经不错，但可以更精细：

# 一个更强大的提示词模板 advanced_system_prompt = “““ 你是一个严谨的知识库助手。请遵循以下规则： 1. 你的回答必须严格基于<context>标签内提供的信息。 2. 如果<context>中的信息足以回答问题，请组织语言，清晰、完整地给出答案。 3. 如果<context>中的信息不足以完全回答问题，你可以基于已知信息进行部分回答，但必须明确指出信息的局限性。 4. 如果<context>中的信息与问题完全无关，请直接告知用户“该问题不在当前知识库范围内”。 5. 在答案的末尾，可以注明“以上信息来源于公司内部知识库”，以增加可信度。 <context> {context_text} </context> “““

8.3 添加对话历史（多轮对话）

让系统能记住之前的对话内容，体验会更自然。这需要你在调用API时，将历史消息也传入messages列表中。

8.4 构建一个简单的Web界面

使用Gradio或Streamlit可以快速为你的RAG系统创建一个交互式网页界面，方便团队其他成员使用。

# 使用Gradio创建界面的极简示例 import gradio as gr def gradio_interface(question): answer = rag_qa_pipeline(question) return answer iface = gr.Interface( fn=gradio_interface, inputs=gr.Textbox(lines=2, placeholder=“请输入关于公司知识的问题...“), outputs=“text“, title=“公司智能知识库助手“, description=“基于GLM-4.7-Flash构建的私有化知识库问答系统“ ) # 在Jupyter中运行 iface.launch(share=False, server_port=7861) # 注意端口不要和GLM原界面冲突