当前位置：首页 > news >正文

DeepSeek-OCR开源大模型实践：对接LangChain构建文档智能问答系统

news 2026/7/9 19:06:06

DeepSeek-OCR开源大模型实践：对接LangChain构建文档智能问答系统

1. 项目概述

DeepSeek-OCR是一个基于DeepSeek-OCR-2构建的现代化智能文档解析系统。这个项目通过视觉与语言的深度融合，将静态的图像文档转换为结构化的Markdown格式，并能够洞察文档的底层布局结构。

传统的OCR技术只能实现简单的文字识别，而DeepSeek-OCR在此基础上实现了质的飞跃。它不仅能够识别文字内容，还能理解文档的结构布局，包括表格、标题、段落等元素的精确位置信息。这种能力为构建智能文档处理系统提供了强大的基础。

通过与LangChain框架的集成，我们可以将DeepSeek-OCR的文档解析能力与大型语言模型的推理能力相结合，构建出真正意义上的文档智能问答系统。这种系统能够理解文档内容，回答基于文档的问题，甚至进行跨文档的知识推理。

2. 环境准备与部署

2.1 硬件要求

要运行DeepSeek-OCR模型，需要满足以下硬件要求：

GPU显存：至少24GB，推荐使用A10、RTX 3090/4090或更高性能的显卡
系统内存：建议32GB或以上
存储空间：需要足够的空间存放模型权重文件（通常几十GB）

2.2 软件环境

首先创建并激活conda环境：

conda create -n deepseek-ocr python=3.10 conda activate deepseek-ocr

安装必要的依赖包：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install transformers>=4.35.0 pip install langchain>=0.0.300 pip install streamlit pip install python-dotenv pip install sentence-transformers

2.3 模型部署

下载DeepSeek-OCR-2模型权重并放置在指定目录：

# 模型路径配置 MODEL_PATH = "/path/to/your/models/deepseek-ai/DeepSeek-OCR-2/" # 检查模型文件是否存在 import os if not os.path.exists(MODEL_PATH): print("请先下载模型权重并放置在指定路径") print("模型下载地址：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2")

3. 核心功能解析

3.1 文档解析能力

DeepSeek-OCR的核心功能是将图像文档转换为结构化的Markdown格式。这个过程不仅仅是简单的文字识别，还包括：

布局分析：识别文档中的不同区域，如标题、段落、表格、图片等结构理解：理解文档的层次结构，包括章节划分、列表项等表格处理：准确识别表格结构并转换为Markdown表格格式坐标定位：保留文字在原始图像中的位置信息

from transformers import AutoProcessor, AutoModelForVision2Seq import torch # 初始化模型和处理器 processor = AutoProcessor.from_pretrained(MODEL_PATH) model = AutoModelForVision2Seq.from_pretrained( MODEL_PATH, torch_dtype=torch.bfloat16, device_map="auto" ) def extract_document_structure(image_path): """提取文档结构和内容""" from PIL import Image # 加载图像 image = Image.open(image_path).convert("RGB") # 处理图像并生成文本 inputs = processor(images=image, return_tensors="pt").to(model.device) generated_ids = model.generate(**inputs) generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0] return generated_text

3.2 空间感知能力

DeepSeek-OCR的一个独特功能是空间感知（Grounding Recognition），它不仅能识别文字内容，还能感知字符在文档中的具体位置：

def extract_text_with_positions(image_path): """提取带位置信息的文本""" from PIL import Image image = Image.open(image_path).convert("RGB") # 使用grounding提示词触发位置感知 prompt = "<|grounding|>" inputs = processor(images=image, text=prompt, return_tensors="pt").to(model.device) generated_ids = model.generate(**inputs) generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0] # 解析包含位置信息的输出 return parse_grounding_output(generated_text) def parse_grounding_output(text): """解析包含位置信息的输出文本""" # 这里会包含解析坐标信息的逻辑 # 返回文本内容及其在图像中的位置 return { "text": text, "bounding_boxes": [] # 解析得到的边界框坐标 }

4. 对接LangChain构建问答系统

4.1 LangChain集成架构

将DeepSeek-OCR与LangChain结合，可以构建强大的文档问答系统。整体架构如下：

文档解析层：使用DeepSeek-OCR解析文档图像
向量存储层：将解析的文本转换为向量并存储
检索层：根据问题检索相关文档片段
推理层：使用LLM生成最终答案

from langchain.text_splitter import RecursiveCharacterTextSplitter from langchain.embeddings import HuggingFaceEmbeddings from langchain.vectorstores import Chroma from langchain.chains import RetrievalQA from langchain.llms import OpenAI from langchain.schema import Document class DocumentQASystem: def __init__(self, llm_model="gpt-3.5-turbo"): self.text_splitter = RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=200 ) self.embeddings = HuggingFaceEmbeddings() self.llm = OpenAI(model_name=llm_model) def process_document(self, image_path): """处理文档图像并创建向量存储""" # 使用DeepSeek-OCR解析文档 markdown_text = extract_document_structure(image_path) # 分割文本 texts = self.text_splitter.split_text(markdown_text) # 创建文档对象 documents = [Document(page_content=text) for text in texts] # 创建向量存储 self.vectorstore = Chroma.from_documents( documents, self.embeddings ) # 创建检索链 self.qa_chain = RetrievalQA.from_chain_type( llm=self.llm, chain_type="stuff", retriever=self.vectorstore.as_retriever() ) def ask_question(self, question): """回答基于文档的问题""" if not hasattr(self, 'qa_chain'): return "请先处理文档" return self.qa_chain.run(question)

4.2 完整工作流程示例

下面是一个完整的文档问答系统实现示例：

import streamlit as st from PIL import Image import tempfile import os # 初始化系统 @st.cache_resource def init_qa_system(): return DocumentQASystem() def main(): st.title("DeepSeek-OCR + LangChain 文档问答系统") # 文件上传 uploaded_file = st.file_uploader("上传文档图像", type=["jpg", "png", "jpeg"]) if uploaded_file is not None: # 保存上传的文件 with tempfile.NamedTemporaryFile(delete=False, suffix=".png") as tmp_file: tmp_file.write(uploaded_file.getvalue()) image_path = tmp_file.name # 显示上传的图像 image = Image.open(image_path) st.image(image, caption="上传的文档", use_column_width=True) # 初始化QA系统 qa_system = init_qa_system() # 处理文档按钮 if st.button("解析文档并构建知识库"): with st.spinner("正在解析文档..."): qa_system.process_document(image_path) st.success("文档解析完成！现在可以提问了") # 问题输入 question = st.text_input("请输入关于文档的问题：") if question: with st.spinner("正在生成答案..."): answer = qa_system.ask_question(question) st.write("**答案：**", answer) # 清理临时文件 os.unlink(image_path) if __name__ == "__main__": main()

5. 高级功能与优化

5.1 多文档支持

在实际应用中，我们经常需要处理多个文档。以下是扩展的多文档支持实现：

class MultiDocumentQASystem(DocumentQASystem): def __init__(self, llm_model="gpt-3.5-turbo"): super().__init__(llm_model) self.processed_documents = [] def add_document(self, image_path, document_name=None): """添加并处理新文档""" markdown_text = extract_document_structure(image_path) if document_name: # 添加文档来源信息 markdown_text = f"# 文档: {document_name}\n\n{markdown_text}" self.processed_documents.append(markdown_text) # 重新构建向量存储 all_text = "\n\n".join(self.processed_documents) texts = self.text_splitter.split_text(all_text) documents = [Document(page_content=text) for text in texts] self.vectorstore = Chroma.from_documents( documents, self.embeddings ) self.qa_chain = RetrievalQA.from_chain_type( llm=self.llm, chain_type="stuff", retriever=self.vectorstore.as_retriever() ) def list_documents(self): """列出已处理的文档""" return [f"文档 {i+1}" for i in range(len(self.processed_documents))]

5.2 性能优化建议

对于生产环境的使用，可以考虑以下优化措施：

批量处理：一次性处理多个文档，减少模型加载次数缓存机制：对已处理的文档进行缓存，避免重复处理异步处理：使用异步IO提高系统响应速度内存管理：及时清理不需要的变量，释放内存

import asyncio from functools import lru_cache class OptimizedDocumentQASystem(MultiDocumentQASystem): @lru_cache(maxsize=10) def cached_document_processing(self, image_path): """带缓存的文档处理""" return extract_document_structure(image_path) async def async_process_document(self, image_path): """异步处理文档""" loop = asyncio.get_event_loop() # 在线程池中运行CPU密集型任务 markdown_text = await loop.run_in_executor( None, self.cached_document_processing, image_path ) return markdown_text