当前位置：首页 > news >正文

DeepSeek-OCR-2基础教程：OCR后文本如何做NER实体识别？Spacy集成示例

news 2026/3/26 17:45:30

DeepSeek-OCR-2基础教程：OCR后文本如何做NER实体识别？Spacy集成示例

1. 学习目标与前置知识

本文面向有一定Python基础，想要了解如何将OCR识别结果进一步做实体识别的开发者。通过本教程，你将学会：

使用DeepSeek-OCR-2进行文档文字识别
将识别结果接入Spacy进行命名实体识别
构建一个完整的OCR+NER处理流水线
使用Gradio创建简单的前端界面

不需要你有深入的NLP背景，我们会用最直白的方式讲解每个步骤。

2. 环境准备与快速部署

2.1 安装必要依赖

首先创建并激活Python虚拟环境，然后安装所需包：

# 创建虚拟环境 python -m venv ocr_ner_env source ocr_ner_env/bin/activate # Linux/Mac # 或 ocr_ner_env\Scripts\activate # Windows # 安装核心依赖 pip install torch torchvision pip install transformers pip install spacy pip install gradio pip install python-multipart

2.2 下载Spacy语言模型

Spacy需要预训练模型来进行实体识别，我们下载中文模型：

python -m spacy download zh_core_web_sm

如果你主要处理英文文档，可以下载英文模型：

python -m spacy download en_core_web_sm

3. 基础概念快速入门

3.1 OCR是什么？

OCR（光学字符识别）就像给电脑装上了"眼睛"，让它能看懂图片里的文字。DeepSeek-OCR-2就是这样一个先进的"眼睛"，不仅能看文字，还能理解文档结构。

3.2 NER实体识别又是什么？

NER（命名实体识别）是给文字中的关键信息打标签的技术。比如从"张三在北京的公司工作"这句话中，它能识别出：

"张三"是人名
"北京"是地名
"公司"是组织机构

3.3 为什么要把它们结合起来？

想象一下：你扫描了一份合同，OCR把文字提取出来了，但你还想知道这里面涉及哪些人、哪些公司、哪些日期。这就是OCR+NER的威力——不仅能读取文字，还能理解文字中的重要信息。

4. 完整代码实现

4.1 导入所需库

import torch from transformers import AutoProcessor, AutoModel from PIL import Image import spacy import gradio as gr import os

4.2 初始化模型

# 加载DeepSeek-OCR-2模型 processor = AutoProcessor.from_pretrained("deepseek-ai/deepseek-ocr-2") model = AutoModel.from_pretrained("deepseek-ai/deepseek-ocr-2") # 加载Spacy中文模型 nlp = spacy.load("zh_core_web_sm") # 如果有GPU，使用GPU加速 device = "cuda" if torch.cuda.is_available() else "cpu" model.to(device)

4.3 OCR识别函数

def extract_text_from_image(image_path): """ 使用DeepSeek-OCR-2从图片中提取文字 """ # 读取图片 image = Image.open(image_path).convert("RGB") # 预处理图片 inputs = processor(images=image, return_tensors="pt").to(device) # 模型推理 with torch.no_grad(): outputs = model(**inputs) # 解码识别结果 recognized_text = processor.decode(outputs.logits[0], skip_special_tokens=True) return recognized_text

4.4 NER实体识别函数

def recognize_entities(text): """ 使用Spacy识别文本中的实体 """ # 处理文本 doc = nlp(text) # 提取实体信息 entities = [] for ent in doc.ents: entities.append({ "text": ent.text, "label": ent.label_, "start": ent.start_char, "end": ent.end_char }) return entities

4.5 完整处理流程

def process_document(image_path): """ 完整的OCR+NER处理流程 """ # 步骤1: OCR文字识别 print("正在进行OCR识别...") text = extract_text_from_image(image_path) print(f"识别结果: {text}") # 步骤2: NER实体识别 print("正在进行实体识别...") entities = recognize_entities(text) # 步骤3: 格式化结果 result = { "extracted_text": text, "entities": entities, "entity_count": len(entities) } return result

5. 快速上手示例

5.1 处理单张图片

让我们用一个简单的例子来试试看：

# 假设你有一张包含文字的图片 image_path = "your_document_image.jpg" # 处理图片 result = process_document(image_path) print("提取的文本:") print(result["extracted_text"]) print("\n识别到的实体:") for entity in result["entities"]: print(f"- {entity['text']} ({entity['label']})")

5.2 实体类型说明

Spacy识别出的实体类型包括：

PERSON：人名，如"张三"、"李四"
ORG：组织机构，如"腾讯公司"、"清华大学"
GPE：地理政治实体，如"北京"、"美国"
DATE：日期，如"2024年1月1日"
TIME：时间，如"下午3点"
MONEY：金额，如"100元"、"$50"
PERCENT：百分比，如"50%"

6. 使用Gradio创建前端界面

6.1 构建Web界面

def gradio_interface(image): """ Gradio界面处理函数 """ # 临时保存上传的图片 temp_path = "temp_image.jpg" image.save(temp_path) # 处理图片 result = process_document(temp_path) # 清理临时文件 os.remove(temp_path) # 格式化输出 output_text = f"提取的文本:\n{result['extracted_text']}\n\n" output_text += f"识别到 {result['entity_count']} 个实体:\n" for entity in result["entities"]: output_text += f"- {entity['text']} ({entity['label']})\n" return output_text # 创建界面 interface = gr.Interface( fn=gradio_interface, inputs=gr.Image(type="pil", label="上传文档图片"), outputs=gr.Textbox(label="识别结果"), title="DeepSeek-OCR-2 + Spacy NER 文档处理", description="上传文档图片，自动识别文字并提取实体信息" )

6.2 启动Web服务

# 启动Gradio界面 if __name__ == "__main__": interface.launch(share=True)

运行这段代码后，你会得到一个本地Web服务地址，打开浏览器就能看到操作界面。上传图片后，系统会自动完成文字识别和实体提取。

7. 实用技巧与进阶

7.1 处理多页PDF文档

如果需要处理多页PDF，可以先将PDF转换为图片：

from pdf2image import convert_from_path def process_pdf(pdf_path): """ 处理多页PDF文档 """ # 转换PDF为图片 images = convert_from_path(pdf_path) all_results = [] for i, image in enumerate(images): # 保存临时图片 temp_path = f"temp_page_{i+1}.jpg" image.save(temp_path, "JPEG") # 处理当前页 result = process_document(temp_path) result["page"] = i + 1 all_results.append(result) # 清理临时文件 os.remove(temp_path) return all_results

7.2 提高识别准确率

图片质量：确保上传的图片清晰、光线均匀
文字方向：如果文档有特殊排版，可以先进行预处理
模型选择：对于特定领域文档，可以微调Spacy模型

7.3 自定义实体类型

如果需要识别特定类型的实体（如产品型号、专利号等），可以训练自定义Spacy模型：

# 简单的训练示例 train_data = [ ("这是一台iPhone 15 Pro手机", {"entities": [(5, 17, "PRODUCT")]}), ("我们的序列号是SN123456", {"entities": [(6, 15, "SERIAL_NUMBER")]}) ] # 实际训练需要更多数据和更复杂的配置