当前位置：首页 > news >正文

Python零基础：DeepSeek-OCR-2入门教程

news 2026/3/26 20:07:28

Python零基础：DeepSeek-OCR-2入门教程

本文面向Python初学者，手把手教你从零开始使用DeepSeek-OCR-2进行文档识别和处理

1. 引言

如果你曾经需要从图片或PDF中提取文字，肯定知道手动输入有多麻烦。特别是面对合同、报告、论文这类文档时，传统OCR工具往往识别不准，表格格式错乱，让人头疼不已。

DeepSeek-OCR-2的出现改变了这一现状。这个开源工具不仅能准确识别文字，还能保持文档的完整结构，包括表格、标题、列表等，直接输出格式清晰的Markdown文档。最棒的是，它完全免费，而且用Python就能轻松调用。

本教程将带你从环境配置开始，一步步学会如何使用DeepSeek-OCR-2。即使你是Python新手，跟着做也能快速上手。

2. 环境准备与安装

2.1 系统要求

在开始之前，确保你的电脑满足以下要求：

操作系统：Windows 10/11、macOS 10.15+ 或 Linux Ubuntu 18.04+
Python版本：Python 3.9 或更高版本（推荐3.10）
硬件要求：至少8GB内存，有NVIDIA显卡更好（能加速处理）

2.2 安装步骤

打开命令行终端（Windows用CMD或PowerShell，macOS/Linux用Terminal），按顺序执行以下命令：

# 1. 创建专用环境（推荐） python -m venv ocr_env source ocr_env/bin/activate # macOS/Linux # 或者 Windows: ocr_env\Scripts\activate # 2. 安装核心依赖 pip install torch torchvision torchaudio pip install transformers pip install pillow pip install python-docx # 处理Word文档

如果你的电脑有NVIDIA显卡，可以安装GPU版本加速处理：

# 有GPU的用户安装这个版本 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

2.3 验证安装

安装完成后，用个简单脚本检查是否一切正常：

# test_install.py import torch print("PyTorch版本:", torch.__version__) print("CUDA是否可用:", torch.cuda.is_available()) import transformers print("Transformers版本:", transformers.__version__)

运行这个脚本，如果看到版本信息而没有报错，说明环境配置成功。

3. 第一个OCR示例

现在让我们写一个最简单的OCR程序，体验一下DeepSeek-OCR-2的能力。

3.1 准备测试图片

首先找一张包含文字的图片作为测试材料。可以是：

手机拍的文件照片
扫描的文档图片
包含表格的截图

保存为test_document.jpg放在项目文件夹里。

3.2 基础识别代码

创建first_ocr.py文件，写入以下代码：

from transformers import AutoModel, AutoTokenizer from PIL import Image import torch # 加载模型和分词器 model_name = 'deepseek-ai/DeepSeek-OCR-2' tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModel.from_pretrained(model_name, trust_remote_code=True) # 如果有GPU就用GPU device = 'cuda' if torch.cuda.is_available() else 'cpu' model = model.to(device) model.eval() # 准备图片 image_path = 'test_document.jpg' image = Image.open(image_path) # 简单的识别提示 prompt = "<image>\n<|grounding|>请识别图片中的文字" # 执行OCR识别 with torch.no_grad(): result = model.infer( tokenizer=tokenizer, prompt=prompt, image_file=image_path, output_path='./output', save_results=True ) print("识别完成！结果保存在output文件夹中")

3.3 运行并查看结果

在终端运行：

python first_ocr.py

程序运行后，会在当前目录创建output文件夹，里面包含识别结果的Markdown文件。用文本编辑器打开看看，你会发现文字被准确提取，而且保持了原来的格式。

4. 处理不同类型的文档

DeepSeek-OCR-2的强大之处在于它能智能处理各种文档类型。下面看看几个常见场景。

4.1 识别普通文档

对于一般的文字文档，使用这个提示词效果很好：

prompt = "<image>\n<|grounding|>将文档内容转换为格式清晰的Markdown，保留所有段落和标点"

4.2 提取表格数据

处理表格时，可以指定输出格式：

prompt = """<image> <|grounding|>提取表格数据，以Markdown表格格式输出，确保行列对齐"""

4.3 处理多栏文档

对于报纸、杂志等多栏排版：

prompt = """<image> <|grounding|>按阅读顺序识别内容，正确区分各栏目，输出结构化的Markdown"""

5. 批量处理技巧

实际工作中往往需要处理大量文档，手动一个个处理太麻烦。下面教你如何批量处理。

5.1 批量处理图片

创建batch_process.py：

import os from glob import glob from transformers import AutoModel, AutoTokenizer def batch_ocr(image_folder, output_folder): # 创建输出文件夹 os.makedirs(output_folder, exist_ok=True) # 加载模型（只需一次） model = AutoModel.from_pretrained('deepseek-ai/DeepSeek-OCR-2', trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained('deepseek-ai/DeepSeek-OCR-2', trust_remote_code=True) # 获取所有图片文件 image_files = glob(os.path.join(image_folder, '*.jpg')) + \ glob(os.path.join(image_folder, '*.png')) + \ glob(os.path.join(image_folder, '*.jpeg')) print(f"找到 {len(image_files)} 个图片文件") # 批量处理 for i, image_file in enumerate(image_files): print(f"处理第 {i+1}/{len(image_files)} 个文件: {os.path.basename(image_file)}") try: output_file = os.path.join(output_folder, f"{os.path.splitext(os.path.basename(image_file))[0]}.md") model.infer( tokenizer=tokenizer, prompt="<image>\n<|grounding|>转换为Markdown文档", image_file=image_file, output_path=output_file, save_results=True ) except Exception as e: print(f"处理 {image_file} 时出错: {str(e)}") print("批量处理完成！") # 使用示例 batch_ocr('./input_images', './output_docs')

5.2 处理PDF文档

DeepSeek-OCR-2也支持直接处理PDF，但需要先将PDF转换为图片：

from pdf2image import convert_from_path def pdf_to_images(pdf_path, output_folder): os.makedirs(output_folder, exist_ok=True) images = convert_from_path(pdf_path) for i, image in enumerate(images): image_path = os.path.join(output_folder, f'page_{i+1}.jpg') image.save(image_path, 'JPEG') return output_folder # 先转换PDF为图片，再批量处理 pdf_path = 'document.pdf' temp_image_folder = './temp_images' pdf_to_images(pdf_path, temp_image_folder) batch_ocr(temp_image_folder, './pdf_output')

6. 常见问题解决

初学者在使用过程中可能会遇到一些问题，这里列出几个常见的解决方法。

6.1 内存不足问题

如果遇到内存错误，可以尝试以下方法：

# 减小处理尺寸 model.infer( tokenizer=tokenizer, prompt=prompt, image_file=image_path, output_path=output_path, base_size=768, # 减小基础尺寸 image_size=512, # 减小图像尺寸 save_results=True )

6.2 识别精度调整

如果某些内容识别不准，可以调整提示词：

# 更详细的提示词 prompt = """<image> <|grounding|>请仔细识别文档内容，特别注意： 1. 数字和字母要准确识别 2. 保持表格结构完整 3. 保留所有标点符号 输出格式清晰的Markdown"""

6.3 处理模糊图片

对于模糊或低质量图片：

from PIL import Image, ImageEnhance def enhance_image(image_path): image = Image.open(image_path) # 增强对比度 enhancer = ImageEnhance.Contrast(image) image = enhancer.enhance(1.5) # 增强锐度 enhancer = ImageEnhance.Sharpness(image) image = enhancer.enhance(2.0) return image # 使用增强后的图片 enhanced_image = enhance_image('blurry_document.jpg') enhanced_image.save('enhanced.jpg')

7. 实际应用案例

让我们看几个实际的应用场景，看看DeepSeek-OCR-2如何解决真实问题。

7.1 合同数字化

法律事务所需要将纸质合同数字化：

def process_contract(contract_image): prompt = """<image> <|grounding|>这是一份法律合同，请准确识别并转换为Markdown格式，要求： 1. 严格保持原文内容，一字不差 2. 保留所有条款编号和层级结构 3. 表格内容要完整提取 4. 特别注意日期、金额等关键信息""" result = model.infer( tokenizer=tokenizer, prompt=prompt, image_file=contract_image, output_path='./contracts_digital' ) return result

7.2 学术论文处理

研究人员需要从PDF论文中提取参考文献：

def extract_references(paper_pdf): prompt = """<image> <|grounding|>这是学术论文的参考文献部分，请提取所有参考文献条目，每条单独列出，保持完整的引用格式""" # 先转换PDF为图片 images = convert_from_path(paper_pdf) references = [] for image in images: image.save('temp_ref.jpg') result = model.infer( tokenizer=tokenizer, prompt=prompt, image_file='temp_ref.jpg' ) references.append(result) return references