当前位置：首页 > news >正文

新手程序员必看：收藏这份RAG智能问答系统实战指南，轻松玩转大模型！

news 2026/7/6 1:24:12

📝 引言

大家好，今天要分享一个非常实用的技术——RAG（检索增强生成）智能问答系统。看完这篇文章，你将学会如何让AI基于你自己的文档内容，精准回答相关问题！

先看效果：

用户问题：Python中列表和元组有什么区别？ 模型回答：列表是可变的，元组是不可变的 置信度：0.98

🤔 为什么要用RAG？

传统的大模型问答存在几个痛点：

❌知识过时：模型训练数据截止到某个时间点
❌胡说八道：对不知道的问题会编造答案
❌无法个性化：不知道你的私有数据

RAG技术完美解决这些问题：

✅实时检索：从你的知识库中找到相关文档
✅精准回答：基于真实文档生成答案
✅私有化：所有数据都在本地，安全可控

🛠️ 环境准备

安装必要的库

pip install langchain langchain-community chromadb transformers sentence-transformers

📥 下载必要的AI模型

本系统需要两个模型，必须提前下载到本地：

模型1：嵌入模型（all-MiniLM-L6-v2）

模型2：问答模型（distilbert-base-uncased-distilled-squad）

项目结构

rag_project/ ├── data/ │ └── programming_faq.txt # 你的知识库文件 └── rag_qa.py # 主程序

📁 准备知识库文件

首先，创建一个知识库文件data/programming_faq.txt：

Python中列表和元组的区别是什么？列表是可变的，元组是不可变的。列表用方括号[]定义，元组用圆括号()定义。 什么是装饰器？装饰器是Python中用于修改函数或类行为的函数。它接受一个函数作为参数，并返回一个新函数。 Python的GIL是什么？全局解释器锁，它确保任何时候只有一个线程执行Python字节码。 如何优化Python代码性能？使用列表推导式代替循环，使用生成器处理大数据，避免不必要的属性查找。

💻 完整代码实现

下面是完整的RAG问答系统代码，每行都有详细注释：

import os from langchain_community.document_loaders import TextLoader from langchain_text_splitters import CharacterTextSplitter from langchain_huggingface import HuggingFaceEmbeddings from langchain_community.vectorstores import Chroma from transformers import pipeline # 1. 加载文档 print("📚 步骤1：加载文档...") loader = TextLoader( r"D:\study\codes\data\programming_faq.txt", encoding='utf-8' # 重要：指定UTF-8编码，避免中文乱码 ) documentation = loader.load() print(f"✅ 加载文档完成，长度：{len(documentation[0].page_content)} 字符") # 2. 分割文档 print("\n✂️ 步骤2：分割文档...") text_splitter = CharacterTextSplitter( chunk_size=128, # 每个文档块的大小 chunk_overlap=0 # 块之间的重叠字符数 ) documentation = text_splitter.split_documents(documentation) print(f"✅ 文档分割完成，共 {len(documentation)} 个片段") # 3. 创建向量数据库 print("\n🗄️ 步骤3：创建向量数据库...") embeddings = HuggingFaceEmbeddings( model_name="D:/software/bigmodel/all-MiniLM-L6-v2", # 本地嵌入模型 model_kwargs={"device": "cpu"}, # 使用CPU运行 encode_kwargs={"normalize_embeddings": True} # 归一化向量 ) db = Chroma.from_documents(documentation, embeddings) print("✅ 向量数据库创建完成！") # 4. 用户提问 print("\n❓ 步骤4：用户提问...") query = "Python中列表和元组有什么区别？" print(f"用户问题：{query}") # 5. 检索相关文档 print("\n🔍 步骤5：检索相关文档...") results = db.similarity_search(query) retrieved_content = results[0].page_content print(f"检索到的内容：{retrieved_content}") # 6. 生成答案 print("\n💡 步骤6：生成答案...") qa_pipeline = pipeline( "question-answering", model="D:/software/bigmodel/distilbert-base-uncased-distilled-squad", # 本地问答模型 tokenizer="D:/software/bigmodel/distilbert-base-uncased-distilled-squad" ) answer = qa_pipeline(question=query, context=retrieved_content) print(f"模型回答：{answer['answer']}") print(f"置信度：{answer['score']:.2f}")

🔍 代码详解

1. 文档加载（Line 8-13）

使用TextLoader加载文本文件，关键点是设置encoding='utf-8'，避免中文编码问题。

2. 文档分割（Line 16-21）

把长文档切成小块，便于检索：

chunk_size=128：每个块128字符
chunk_overlap=0：块之间不重叠

3. 向量化（Line 25-30）

使用all-MiniLM-L6-v2模型将文本转换为向量：

这是一个轻量级的嵌入模型
将文本映射到384维的向量空间
用于计算文本相似度

4. 向量数据库（Line 31）

使用 Chroma 存储向量：

支持高效的相似度搜索
可以持久化到磁盘（本例未启用）

5. 检索（Line 39-42）

计算问题与文档的相似度，返回最相关的文档块。

6. 问答（Line 46-52）

使用distilbert-base-uncased-distilled-squad模型：

专门用于抽取式问答
从上下文中提取答案
返回答案和置信度

🎯 运行效果

运行代码后，你将看到：

📚 步骤1：加载文档... ✅ 加载文档完成，长度：856 字符 ✂️ 步骤2：分割文档... ✅ 文档分割完成，共 8 个片段 🗄️ 步骤3：创建向量数据库... ✅ 向量数据库创建完成！ ❓ 步骤4：用户提问... 用户问题：Python中列表和元组有什么区别？ 🔍 步骤5：检索相关文档... 检索到的内容：Python中列表和元组的区别是什么？列表是可变的，元组是不可变的。列表用方括号[]定义，元组用圆括号()定义。 💡 步骤6：生成答案... 模型回答：列表是可变的，元组是不可变的 置信度：0.98