当前位置：首页 > news >正文

Gemma-3-270m实战教程：结合LangChain构建轻量级本地知识问答机器人

news 2026/7/10 17:01:27

Gemma-3-270m实战教程：结合LangChain构建轻量级本地知识问答机器人

1. 引言：为什么选择Gemma-3-270m？

你是否遇到过这样的困扰：想要一个能回答特定领域问题的AI助手，但又不想依赖云端服务，担心数据隐私和网络延迟？或者你有一台普通的笔记本电脑，想要运行自己的AI模型，但大模型对硬件要求太高？

今天我要介绍的解决方案，正好能解决这些问题。使用Gemma-3-270m这个轻量级模型，结合LangChain框架，我们可以在本地搭建一个知识问答机器人，不需要高端显卡，普通电脑就能运行。

Gemma-3-270m是谷歌基于Gemini技术开发的轻量级模型，虽然只有2.7亿参数，但能力相当不错。它支持128K的长上下文，能处理140多种语言，特别适合问答、摘要和推理任务。最重要的是，它真的很轻量，在我的MacBook Air上就能流畅运行。

通过本教程，你将学会：

如何快速部署Gemma-3-270m模型
如何使用LangChain构建知识问答系统
如何让AI理解你的本地文档并准确回答
实际应用中的技巧和避坑指南

让我们开始这个既实用又有趣的项目吧！

2. 环境准备与快速部署

2.1 安装Ollama

Ollama是目前最简单本地运行大模型的方式，它帮你处理了所有复杂的依赖和配置。安装过程非常简单：

# 在Mac上安装 brew install ollama # 在Linux上安装 curl -fsSL https://ollama.com/install.sh | sh # 在Windows上，直接下载安装包

安装完成后，启动Ollama服务：

ollama serve

服务默认会在11434端口启动，你可以在浏览器中访问 http://localhost:11434 查看是否正常运行。

2.2 下载Gemma-3-270m模型

有了Ollama，下载模型变得异常简单：

ollama pull gemma3:270m

这个命令会自动下载最新版的Gemma-3-270m模型。下载速度取决于你的网络，通常需要几分钟时间。

下载完成后，你可以测试一下模型是否正常工作：

ollama run gemma3:270m "你好，请介绍一下你自己"

如果看到模型回复，说明一切就绪！

2.3 安装Python依赖

我们需要一些Python库来构建问答系统：

pip install langchain langchain-community chromadb sentence-transformers

这些库的作用分别是：

langchain: 核心框架，用于构建AI应用链
langchain-community: 社区贡献的组件和集成
chromadb: 轻量级向量数据库，用于存储和检索文档
sentence-transformers: 文本嵌入模型，用于将文本转换为向量

现在环境已经准备好了，让我们开始构建问答系统。

3. 构建本地知识问答系统

3.1 准备你的知识文档

首先，把你的文档整理好。支持多种格式：

TXT文本文件
PDF文档
Word文档
Markdown文件

建议把文档放在一个单独的文件夹中，比如./docs/。这些文档可以是：

公司内部文档
产品说明书
学习笔记
任何你希望AI能回答的内容

3.2 创建文档加载和处理流程

使用LangChain来加载和处理文档：

from langchain.document_loaders import DirectoryLoader, TextLoader from langchain.text_splitter import RecursiveCharacterTextSplitter def load_and_process_documents(directory_path): # 加载所有文档 loader = DirectoryLoader( directory_path, glob="**/*.txt", # 可以根据需要添加其他格式 loader_cls=TextLoader ) documents = loader.load() # 分割文档为小块 text_splitter = RecursiveCharacterTextSplitter( chunk_size=1000, # 每个块1000个字符 chunk_overlap=200 # 块之间重叠200字符，保持上下文 ) chunks = text_splitter.split_documents(documents) return chunks

3.3 构建向量数据库

接下来，我们把文档转换为向量并存储：

from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import Chroma def create_vector_store(documents): # 使用轻量级嵌入模型 embeddings = HuggingFaceEmbeddings( model_name="all-MiniLM-L6-v2" # 小但效果不错的模型 ) # 创建向量数据库 vector_store = Chroma.from_documents( documents=documents, embedding=embeddings, persist_directory="./chroma_db" # 本地存储路径 ) return vector_store

3.4 集成Gemma-3-270m模型

现在连接我们的语言模型：

from langchain.llms import Ollama def create_llm(): llm = Ollama( model="gemma3:270m", temperature=0.1, # 较低的温度让回答更确定 num_predict=512 # 最大生成长度 ) return llm

3.5 组装完整的问答链

把各个组件组合起来：

from langchain.chains import RetrievalQA from langchain.prompts import PromptTemplate def create_qa_chain(vector_store, llm): # 定义提示模板，让模型更好地回答问题 prompt_template = """基于以下上下文信息，请回答问题。如果无法从上下文中找到答案，请如实说明你不知道。 上下文： {context} 问题：{question} 回答：""" PROMPT = PromptTemplate( template=prompt_template, input_variables=["context", "question"] ) # 创建检索式问答链 qa_chain = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=vector_store.as_retriever( search_type="similarity", search_kwargs={"k": 3} # 检索最相关的3个文档块 ), chain_type_kwargs={"prompt": PROMPT}, return_source_documents=True ) return qa_chain

4. 完整示例代码

下面是一个完整的可运行示例：

import os from langchain.document_loaders import DirectoryLoader, TextLoader from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import Chroma from langchain.llms import Ollama from langchain.chains import RetrievalQA from langchain.prompts import PromptTemplate class LocalQAAssistant: def __init__(self, docs_directory): self.docs_directory = docs_directory self.vector_store = None self.qa_chain = None def initialize(self): """初始化整个系统""" print("正在加载文档...") documents = self.load_documents() print("正在创建向量数据库...") self.vector_store = self.create_vector_store(documents) print("正在初始化语言模型...") llm = self.create_llm() print("正在构建问答链...") self.qa_chain = self.create_qa_chain(self.vector_store, llm) print("系统初始化完成！") def load_documents(self): """加载和处理文档""" loader = DirectoryLoader( self.docs_directory, glob="**/*.txt", loader_cls=TextLoader ) documents = loader.load() text_splitter = RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=200 ) chunks = text_splitter.split_documents(documents) return chunks def create_vector_store(self, documents): """创建向量数据库""" embeddings = HuggingFaceEmbeddings( model_name="all-MiniLM-L6-v2" ) vector_store = Chroma.from_documents( documents=documents, embedding=embeddings, persist_directory="./chroma_db" ) return vector_store def create_llm(self): """创建语言模型实例""" return Ollama( model="gemma3:270m", temperature=0.1, num_predict=512 ) def create_qa_chain(self, vector_store, llm): """创建问答链""" prompt_template = """基于以下上下文信息，请回答问题。如果无法从上下文中找到答案，请如实说明你不知道。 上下文： {context} 问题：{question} 回答：""" PROMPT = PromptTemplate( template=prompt_template, input_variables=["context", "question"] ) return RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=vector_store.as_retriever(search_kwargs={"k": 3}), chain_type_kwargs={"prompt": PROMPT}, return_source_documents=True ) def ask_question(self, question): """提问并获取答案""" if not self.qa_chain: raise ValueError("请先调用initialize()方法初始化系统") result = self.qa_chain({"query": question}) return result # 使用示例 if __name__ == "__main__": # 初始化助手 assistant = LocalQAAssistant("./docs/") assistant.initialize() # 提问示例 while True: question = input("\n请输入你的问题（输入'退出'结束）：") if question.lower() == '退出': break result = assistant.ask_question(question) print(f"\n答案：{result['result']}") # 显示参考来源 print("\n参考来源：") for i, doc in enumerate(result['source_documents']): print(f"{i+1}. {doc.metadata.get('source', '未知')}")

5. 实际应用示例

让我们看几个实际的使用场景：

5.1 技术文档问答

假设你有一些技术文档，比如Python编程指南：

提问："如何在Python中读取文件？"

系统会：

在文档中查找文件操作的相关内容
提取最相关的3个文档片段
让Gemma-3-270m基于这些内容生成回答

典型回答："根据文档，在Python中可以使用open()函数读取文件。基本语法是：with open('filename.txt', 'r') as file: content = file.read()。记得使用with语句来自动关闭文件。"

5.2 产品知识库

如果你有产品说明书：

提问："产品X的最大支持用户数是多少？"

系统会：

查找产品规格相关文档
找到具体的数值信息
给出准确回答并注明来源

5.3 学习资料查询

用于学习笔记查询：

提问："机器学习中的过拟合是什么意思？"

系统会：

在你的学习笔记中查找相关解释
用你自己的笔记内容来回答
保持与你学习风格一致的解释方式

6. 性能优化与实用技巧

6.1 提升回答质量

如果发现回答不够准确，可以尝试：

# 调整检索数量 retriever = vector_store.as_retriever(search_kwargs={"k": 5}) # 增加到5个文档块 # 改进提示模板 better_prompt = """你是一个专业的助手，请严格基于提供的上下文信息回答问题。 上下文信息： {context} 问题：{question} 请根据上下文提供准确、完整的回答。如果上下文中的信息不足以回答问题，请说"根据现有信息，我无法准确回答这个问题"。 回答："""

6.2 处理长文档策略

对于很长的文档，可以考虑：

# 使用更精细的分割策略 text_splitter = RecursiveCharacterTextSplitter( chunk_size=800, # 更小的块大小 chunk_overlap=150, # 适当的重叠 separators=["\n\n", "\n", "。", "！", "？", "．"] # 中文友好的分隔符 )

6.3 内存优化

如果内存有限，可以：

# 使用更轻量的嵌入模型 embeddings = HuggingFaceEmbeddings( model_name="paraphrase-multilingual-MiniLM-L12-v2" ) # 限制并发请求 llm = Ollama( model="gemma3:270m", num_thread=4, # 限制线程数 num_gpu=1 # 如果有多GPU，可以指定 )