当前位置：首页 > news >正文

Langchain4j + Ollama本地模型实战：5步搭建RAG问答系统（附避坑指南）

news 2026/7/12 20:08:21

Langchain4j + Ollama本地模型实战：5步搭建RAG问答系统（附避坑指南）

在数据隐私日益重要的今天，企业越来越倾向于将AI能力本地化部署。本文将手把手教你如何用Java生态中的Langchain4j框架，结合Ollama本地大模型和SearXNG搜索引擎，构建一个完全本地化的RAG（检索增强生成）问答系统。不同于依赖OpenAI等云端服务的方案，这套架构特别适合对数据隐私敏感的企业内部知识库场景。

1. 环境准备与依赖配置

首先需要确保开发环境满足基础要求。推荐使用JDK 17+和Maven 3.6+，这两个版本对现代Java生态支持最为完善。以下是必须的核心依赖：

<dependency> <groupId>dev.langchain4j</groupId> <artifactId>langchain4j-ollama-spring-boot-starter</artifactId> <version>1.0.0-beta2</version> </dependency> <dependency> <groupId>dev.langchain4j</groupId> <artifactId>langchain4j-community-web-search-engine-searxng</artifactId> <version>1.0.0-beta2</version> </dependency>

关键组件说明：

组件	作用	推荐版本
Ollama	本地大模型运行环境	最新稳定版
SearXNG	自建搜索引擎	2025.x
Langchain4j	Java版AI应用框架	1.0.0-beta2

提示：如果遇到依赖冲突，建议先清理本地Maven仓库（~/.m2/repository）再重新构建项目。

2. Ollama本地模型部署

Ollama的安装非常简单，以MacOS为例：

brew install ollama ollama pull deepseek-r1:1.5b # 下载适合本地运行的轻量模型

启动服务后，可以通过以下代码测试模型是否正常运行：

OllamaChatModel model = OllamaChatModel.builder() .baseUrl("http://localhost:11434") .modelName("deepseek-r1:1.5b") .build(); String response = model.generate("你好，介绍一下你自己"); System.out.println(response);

常见问题排查：

如果出现连接超时，检查Ollama服务是否正常运行（ollama serve）
模型响应慢可以尝试更小的模型版本（如1.3b）
内存不足时添加JVM参数：-Xmx8g

3. SearXNG搜索引擎集成

SearXNG的Docker部署命令：

docker run -d -p 8080:8080 \ -v ${PWD}/searxng:/etc/searxng \ registry.cn-hangzhou.aliyuncs.com/dockerhub_mirror/searxng:latest

Langchain4j集成配置：

WebSearchEngine searchEngine = SearXNGWebSearchEngine.builder() .baseUrl("http://localhost:8080") .optionalParams(Map.of( "categories", "general", "disabled_engines", "wikipedia__general,bing__general" )) .build(); WebSearchResults results = searchEngine.search("2025年Java最新特性"); results.toTextSegments().forEach(System.out::println);

搜索引擎优化技巧：

禁用响应慢的引擎（如Google、Bing）
优先启用国内引擎（360search、baidu）
设置超时时间不超过5秒
对中文结果特别处理编码问题

4. RAG核心实现

完整的RAG流程包含以下几个关键步骤：

文档加载与解析：

DocumentParser parser = new ApachePdfBoxDocumentParser(); Document document = parser.parse(new File("企业知识库.pdf"));

文本分块与向量化：

DocumentSplitter splitter = DocumentSplitters.recursive(500, 50); List<TextSegment> segments = splitter.split(document); EmbeddingModel embeddingModel = OllamaEmbeddingModel.builder() .baseUrl("http://localhost:11434") .modelName("bge-m3:latest") .build(); List<Embedding> embeddings = embeddingModel.embedAll(segments).content();

向量存储与检索：

EmbeddingStore<TextSegment> store = new InMemoryEmbeddingStore<>(); store.addAll(embeddings, segments); ContentRetriever retriever = EmbeddingStoreContentRetriever.builder() .embeddingStore(store) .embeddingModel(embeddingModel) .maxResults(3) .minScore(0.6) .build();

问答服务组装：

Assistant assistant = AiServices.builder(Assistant.class) .chatLanguageModel(ollamaModel) .contentRetriever(retriever) .build(); String answer = assistant.answer("公司年假政策是什么？");

5. 避坑指南与性能优化

在实际部署中，我们总结了以下经验教训：

文档处理方面：

PDF解析使用Apache PDFBox时，复杂表格容易丢失格式
分块大小建议300-500token，重叠50-100token
中文文本需要特别处理空格和标点

性能优化点：

向量模型选择：
- 中文优先选bge-m3
- 英文推荐all-minilm-l6-v2
检索参数调优：

// 最佳实践参数 EmbeddingStoreContentRetriever.builder() .maxResults(3) // 结果数量 .minScore(0.6) // 相似度阈值 .dynamicScore(0.2) // 动态权重 .build();

混合检索策略：

QueryRouter router = new DefaultQueryRouter( embeddingRetriever, webSearchRetriever ); RetrievalAugmentor augmentor = DefaultRetrievalAugmentor.builder() .queryRouter(router) .build();

典型错误处理：

错误现象	可能原因	解决方案
检索结果不相关	分块策略不当	调整分块大小和重叠度
响应速度慢	向量模型过大	换用更小的embedding模型
中文乱码	编码问题	统一使用UTF-8编码

这套本地化RAG方案在某金融企业知识库项目中，相比原有云端方案实现了：