当前位置：首页 > news >正文

internlm2-chat-1.8b开源模型教程：Ollama+LangChain构建RAG应用全流程

news 2026/7/6 19:09:59

internlm2-chat-1.8b开源模型教程：Ollama+LangChain构建RAG应用全流程

1. 认识internlm2-chat-1.8b模型

今天我们来聊聊一个特别实用的开源模型——internlm2-chat-1.8b。这个模型只有18亿参数，算是"小而美"的代表，但在很多实际场景中表现相当不错。

internlm2-chat-1.8b是第二代书生浦语系列模型中的聊天版本，专门针对对话场景进行了优化。它最大的特点是支持超长上下文，能处理长达20万个字符的文本，这在同级别的小模型中是非常罕见的。

这个模型适合用在哪些地方呢？比如智能客服、文档问答、内容生成，或者像我们今天要做的RAG应用（检索增强生成）。它的响应速度快，资源消耗相对较小，对于个人开发者或者中小型项目来说是个不错的选择。

2. 环境准备与Ollama部署

2.1 安装Ollama

首先我们需要安装Ollama，这是一个专门用于本地运行大模型的工具。安装很简单：

# Linux/macOS 安装 curl -fsSL https://ollama.ai/install.sh | sh # Windows 安装 直接下载安装包从官网 https://ollama.ai/download

安装完成后，验证一下是否成功：

ollama --version

2.2 拉取internlm2模型

接下来拉取我们需要的模型：

ollama pull internlm2:1.8b

这个过程可能会花一些时间，取决于你的网络速度。模型大小约3.5GB，所以请确保有足够的磁盘空间。

2.3 运行模型测试

拉取完成后，我们可以先简单测试一下：

ollama run internlm2:1.8b

然后在提示符后输入问题，比如"你好"，看看模型是否能正常回复。

3. LangChain基础配置

3.1 安装必要库

我们需要安装LangChain和相关依赖：

pip install langchain langchain-community ollama

如果你打算做文档处理，还可以安装：

pip install chromadb sentence-transformers

3.2 初始化LangChain与Ollama集成

创建一个Python文件，开始配置LangChain：

from langchain_community.llms import OllamaLLM from langchain.chains import RetrievalQA from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import Chroma from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.document_loaders import TextLoader # 初始化Ollama模型 llm = OllamaLLM(model="internlm2:1.8b", temperature=0.1)

这里的temperature参数控制生成文本的随机性，0.1表示比较保守和确定性的输出。

4. 构建RAG应用全流程

4.1 准备知识库文档

首先准备你的知识库文档，可以是TXT、PDF、Markdown等格式。这里以文本文件为例：

# 加载文档 loader = TextLoader("你的文档.txt") documents = loader.load() # 分割文本 text_splitter = RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=200 ) texts = text_splitter.split_documents(documents)

4.2 创建向量数据库

接下来创建向量存储，用于快速检索相关信息：

# 使用句子嵌入模型 embeddings = HuggingFaceEmbeddings( model_name="sentence-transformers/all-MiniLM-L6-v2" ) # 创建向量数据库 vectorstore = Chroma.from_documents( documents=texts, embedding=embeddings, persist_directory="./chroma_db" )

4.3 构建检索链

现在把所有的组件组合起来：

# 创建检索器 retriever = vectorstore.as_retriever( search_type="similarity", search_kwargs={"k": 3} ) # 创建QA链 qa_chain = RetrievalQA.from_chain_type( llm=llm, chain_type="stuff", retriever=retriever, return_source_documents=True )

5. 实际应用示例

5.1 简单问答测试

让我们测试一下RAG系统的效果：

# 提问 question = "你们公司的退货政策是什么？" result = qa_chain({"query": question}) print(f"问题: {question}") print(f"回答: {result['result']}") print("参考文档:") for doc in result['source_documents']: print(f"- {doc.metadata['source']}: {doc.page_content[:100]}...")

5.2 处理复杂查询

对于更复杂的问题，模型也能结合检索到的信息给出详细回答：

complex_question = "请总结一下我们产品的主要特点和优势" result = qa_chain({"query": complex_question}) print(f"详细回答: {result['result']}")

6. 性能优化技巧

6.1 调整检索参数

根据你的需求调整检索参数：

# 更精确的检索 precise_retriever = vectorstore.as_retriever( search_type="mmr", # 最大边际相关性 search_kwargs={"k": 5, "fetch_k": 10} )

6.2 优化提示工程

改进提示词可以获得更好的回答：

from langchain.prompts import PromptTemplate custom_prompt = PromptTemplate( template="""基于以下上下文信息，请用中文回答用户的问题。如果无法从上下文中得到答案，请如实告知。 上下文：{context} 问题：{question} 回答：""", input_variables=["context", "question"] )

6.3 批量处理问题

如果需要处理多个问题，可以批量处理提高效率：

questions = [ "问题1", "问题2", "问题3" ] for question in questions: result = qa_chain({"query": question}) print(f"Q: {question}") print(f"A: {result['result']}\n")