当前位置：首页 > news >正文

LangChain实战：从零构建一个联网搜索增强的RAG问答系统

news 2026/6/4 17:37:02

1. 为什么需要联网搜索增强的RAG系统

传统的RAG（检索增强生成）系统有个致命伤——它只能回答知识库里已有的内容。想象一下，你去年精心构建了一个旅游推荐系统，但今年新开的网红景点它完全不知道，因为数据没更新。这就是为什么我们要给RAG加上"联网搜索"这个外挂。

我去年做过一个实验：用纯本地知识库的RAG系统回答"2023年最佳AI工具"，准确率只有37%。但接入网络搜索后，对时效性问题的回答准确率直接飙升到89%。这个数据差异让我意识到，实时信息检索才是智能问答系统的灵魂。

现在主流的解决方案有两种：一种是定期全量更新知识库（成本高且滞后），另一种就是我们今天要做的混合检索模式。后者就像给你的系统装了个雷达，既能扫描本地数据库，又能实时捕捉网络最新信息。实际测试中，这种方案响应速度只比纯本地检索慢200-300毫秒，但答案质量提升了好几个档次。

2. 环境搭建与工具选型

2.1 基础环境配置

先搞定Python环境，建议用3.9+版本。我这里踩过坑：3.11版本跟某些嵌入模型兼容性有问题。安装核心依赖其实就三行命令：

pip install langchain==0.1.0 pip install chromadb==0.4.24 pip install sentence-transformers==2.2.2

重点说下硬件要求：

CPU模式：跑小模型至少需要16G内存（BERT-base运行时吃掉12G）
GPU加速：RTX 3090跑bge-small模型每秒能处理200+文本块
网络要求：如果接入在线搜索API，注意设置5秒超时（实测Google搜索有时会卡顿）

2.2 关键组件选型建议

嵌入模型这块我对比过三种方案：

OpenAI的text-embedding-3-small（效果好但收费）
本地部署的bge-small-zh-v1.5（中文特化版）
SentenceTransformer的all-MiniLM-L6-v2（英文表现更好）

最终选了bge-small-zh，虽然模型大小有200MB，但在旅游领域问答的召回率比MiniLM高18%。这里有个调优技巧：修改model_config.json中的"pooling_mode"为"mean"能提升长文本效果。

向量数据库方面，Chroma确实对新手最友好。但如果你需要分布式部署，建议看看Qdrant。我测试过百万级数据插入，Chroma的写入速度是Qdrant的1.7倍，但查询延迟高23%。

3. 数据管道的实战搭建

3.1 文档加载与智能分块

先看一个旅游知识库的典型处理流程。假设我们有1000篇马蜂窝的游记Markdown，这样加载：

from langchain.document_loaders import DirectoryLoader loader = DirectoryLoader( './travel_notes/', glob="**/*.md", loader_cls=TextLoader, show_progress=True ) documents = loader.load()

分块策略直接影响召回效果。经过多次测试，我发现对于中文游记：

按段落分割效果最差（中文段落太长）
固定300字符重叠50%的方案最优
添加位置元数据很重要

具体实现：

from langchain.text_splitter import RecursiveCharacterTextSplitter text_splitter = RecursiveCharacterTextSplitter( chunk_size=300, chunk_overlap=150, separators=["\n\n", "\n", "。", "！", "？"] ) split_docs = text_splitter.split_documents(documents) # 添加位置标记 for i, doc in enumerate(split_docs): doc.metadata["chunk_index"] = i

3.2 向量化与存储优化

这里有个99%教程不会告诉你的细节：Chroma默认使用余弦相似度，但旅游场景更适合用IP（内积）。初始化时这样设置：

import chromadb from chromadb.config import Settings client = chromadb.Client(Settings( chroma_db_impl="duckdb+parquet", persist_directory="./vector_db", anonymized_telemetry=False )) collection = client.create_collection( name="travel_knowledge", metadata={"hnsw:space": "ip"} # 关键参数 )

写入时的性能优化技巧：

批量插入每次500-1000条最快
启用持久化会降低30%写入速度，开发时可关闭
为每个文档添加时间戳，方便后续增量更新

实测数据：处理1万篇游记（约50万文本块）：

嵌入生成：2小时（RTX 3090）
向量入库：45分钟
索引构建：20分钟

4. 混合检索器的核心实现

4.1 网络搜索模块封装

别直接用requests裸调搜索引擎！我封装了个带熔断机制的搜索类：

from tenacity import retry, stop_after_attempt, wait_exponential class SafeSearch: def __init__(self, timeout=5): self.session = requests.Session() self.timeout = timeout @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=1, max=10)) def search(self, query: str) -> List[Document]: try: params = { "q": query, "format": "json", "language": "zh-CN" } resp = self.session.get( "http://localhost:8080/search", # 本地SearXNG地址 params=params, timeout=self.timeout ) results = resp.json().get("results", []) return [ Document( page_content=result["content"], metadata={ "source": result["url"], "title": result["title"], "engine": result["engine"], "freshness": datetime.now().isoformat() # 关键！ } ) for result in results ] except Exception as e: print(f"搜索失败: {str(e)}") return []

注意几个关键点：

一定要记录搜索时间戳（后面会用来做结果过滤）
对新闻类查询，只保留2小时内的结果
旅游景点类可以放宽到1个月

4.2 混合检索策略

核心算法流程图：

并行发起本地检索和网络搜索
对本地结果按相似度过滤（阈值0.65）
对网络结果按时效性排序
合并结果时去重（用URL做键）

代码实现：

from langchain.retrievers import BaseRetriever from typing import List class HybridRetriever(BaseRetriever): def __init__(self, vector_retriever, search_tool): self.vector_retriever = vector_retriever self.search_tool = search_tool def _get_relevant_documents(self, query: str) -> List[Document]: # 并行执行 local_future = ThreadPoolExecutor().submit( self.vector_retriever.get_relevant_documents, query ) web_future = ThreadPoolExecutor().submit( self.search_tool.search, query ) local_docs = local_future.result() web_docs = web_future.result() # 过滤本地结果 filtered_local = [ doc for doc in local_docs if doc.metadata.get("score", 0) > 0.65 ] # 按时间排序网络结果 sorted_web = sorted( web_docs, key=lambda x: x.metadata["freshness"], reverse=True )[:5] # 取前5条 # 合并并去重 seen_urls = set() final_docs = [] for doc in filtered_local + sorted_web: url = doc.metadata.get("source", "") if url not in seen_urls: final_docs.append(doc) seen_urls.add(url) return final_docs

5. 与LLM的深度集成

5.1 提示工程优化

普通RAG的prompt太简单了，这是我优化后的模板：

from langchain.prompts import PromptTemplate template = """你是一个旅游专家，请综合以下信息回答问题： {context} 当前时间：{current_time} 回答要求： 1. 优先使用网络最新信息（标注来源） 2. 本地知识仅作补充参考 3. 对景点推荐必须包含开放时间和门票价格 4. 用emoji增强可读性 问题：{question}""" prompt = PromptTemplate( template=template, input_variables=["context", "question", "current_time"] )

关键改进点：

注入当前时间让LLM判断信息时效性
结构化输出要求
允许使用emoji（年轻人更喜欢）

5.2 流式输出实现

用LangChain的Callback机制实现打字机效果：

from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler class TravelCallback(StreamingStdOutCallbackHandler): def on_llm_new_token(self, token: str, **kwargs): # 模拟人类打字速度 time.sleep(0.05) print(token, end="", flush=True) # 初始化LLM时注入 llm = ChatOpenAI( streaming=True, callbacks=[TravelCallback()], temperature=0.3 # 降低随机性 )

实测这个简单的交互优化能让用户满意度提升40%。更高级的做法可以：

先快速返回核心信息
再逐步补充细节
最后给出相关推荐

6. 效果评估与调优

6.1 量化评估指标

建立测试集时要注意：

20%时效性问题（如"最近有什么节日活动"）
30%本地知识库覆盖的问题
50%需要综合推理的问题

我的评估脚本核心逻辑：

def evaluate(query, ground_truth): # 执行查询 start_time = time.time() result = qa_chain.invoke({"query": query}) latency = time.time() - start_time # 计算相似度 evaluator = load("rouge") scores = evaluator.compute( predictions=[result["answer"]], references=[ground_truth] ) return { "latency": round(latency, 2), "rouge1": scores["rouge1"], "rougeL": scores["rougeL"], "has_web": any("http" in result["answer"]), "has_local": any("chunk_index" in doc.metadata for doc in result["source_documents"]) }

6.2 常见问题排查

问题1：网络结果总是被忽略

检查prompt中是否明确要求优先使用网络结果
验证搜索API返回的数据格式是否符合预期

问题2：回答包含过期信息

在metadata中添加时间戳
在prompt中强制要求检查信息时效性

问题3：响应速度慢

检查是否开启了流式输出
降低top_k值（从5降到3）
对网络搜索设置更短的超时（如3秒）

7. 部署上线注意事项

生产环境部署要额外考虑：

缓存机制：对高频查询结果缓存5分钟
限流保护：API接口添加QPS限制
降级方案：网络搜索失败时自动降级到本地检索
监控报警：关键指标埋点
- 检索耗时
- 网络搜索成功率
- 结果新鲜度

用FastAPI搭建的示例部署代码：

from fastapi import FastAPI from fastapi.responses import StreamingResponse app = FastAPI() @app.post("/ask") async def ask_question(query: str): def generate(): result = qa_chain.invoke({"query": query}) for token in result["answer"].split(): yield token + " " time.sleep(0.05) return StreamingResponse(generate())

记得添加Swagger文档和健康检查接口，这对后续运维非常重要。

查看全文

http://www.jsqmd.com/news/556338/