当前位置：首页 > news >正文

Python PDF自动化：文本提取、OCR识别与动态写入实战

news 2026/6/12 6:10:06

1. 项目概述：用 Python 处理 PDF 文档，不是“替代 Adobe”，而是构建可复用的自动化工作流

你有没有遇到过这样的场景：每天要从几十份采购合同里提取供应商名称、金额和签约日期，手动复制粘贴到 Excel 里，一上午就没了；或者客户发来一份扫描版的发票 PDF，里面全是图片，但财务系统只认结构化数据；又或者你手头有一批培训结业证书 PDF，需要批量在每一页右下角加上带时间戳的电子签章——这些事，Adobe Acrobat 确实能做，但每次都要点开软件、选菜单、拖窗口、等渲染，重复操作 50 次？那不是在办公，是在给软件打工。我干这行十多年，经手过教育、金融、政务、电商四个行业的 PDF 自动化需求，结论很实在：真正省时间的，从来不是“点得快”，而是“不用点”。这篇内容讲的，就是怎么用 Python 把 PDF 从“静态文档”变成“可编程对象”——它不追求炫技，不堆砌冷门库，只聚焦三类最常被问到、也最容易踩坑的核心任务：文本精准提取（尤其含表格/扫描件）、页面智能拆分与重组、内容动态写入（文字/水印/签名）。关键词里的 “Towards AI” 和 “Medium” 只是原始出处标记，实际内容完全脱离平台语境，所有代码、工具、参数选择都基于真实产线环境反复验证过。适合两类人：一类是刚学完 Python 基础、想拿个“看得见效果”的项目练手的新手；另一类是业务部门同事，比如HR、财务、运营，你们不需要成为程序员，但只要照着步骤改几行路径和关键词，就能让脚本替你干掉80%的机械劳动。下面说的每个方案，我都附上了“为什么这么选”的底层逻辑，而不是直接甩命令——因为只有理解了 PDF 文件本身的结构特性，你才能在下次遇到“提取结果错位”或“水印糊成一片”时，自己快速定位是字体嵌入问题，还是 DPI 设置偏差。

2. 核心思路拆解：PDF 不是图片，也不是 Word，它的结构决定处理方式

很多人一上来就搜“Python PDF 库推荐”，然后看到 PyPDF2、pdfplumber、fitz（PyMuPDF）、pdfminer 这一堆名字就懵了。其实根本不用记库名，先抓住一个核心事实：PDF 文件本质是一棵嵌套的对象树，由文本对象、图形对象、字体字典、页面资源等节点构成，而不同库只是用不同方式“爬”这棵树。这就决定了——没有万能库，只有“任务匹配库”。我见过太多人用 PyPDF2 去处理扫描件，结果返回空字符串，然后骂“Python 不行”，其实是用错了工具。下面这张表，是我把十年项目踩过的坑浓缩成的决策指南，它不讲抽象原理，只告诉你“什么情况下必须换库”：

任务类型	推荐主力库	关键原因说明（实操中血的教训）	替代方案（仅当主力库失效时）
纯文本PDF提取（含复杂排版/多栏）	`pdfplumber`	它把每页解析成字符级坐标网格，能精准识别表格线、区分标题/正文/页脚；PyPDF2 只返回扁平字符串，遇到“姓名：张三电话：138**”这种，会连成“姓名：张三电话：138**”，根本没法正则匹配。	`fitz`（PyMuPDF）+`page.get_text("dict")`
扫描件/图片型PDF OCR 提取	`pytesseract`+`pdf2image`	PDF 本身不含文字，必须先转为高分辨率图像（`pdf2image`），再用 OCR 识别（`pytesseract`）。这里有个致命细节：`pdf2image`默认 DPI 是 200，但小字号发票文字会糊成墨团，实测 300 DPI 是平衡速度与准确率的甜点值。	`easyocr`（对中文支持更好，但速度慢3倍）
PDF 页面拆分/合并/加密	`PyPDF2`	API 极其稳定，10年没大更新反而说明它足够可靠；`fitz`功能更强但文档混乱，新手容易写出内存泄漏代码（比如忘记`doc.close()`）。	`pypdf`（PyPDF2 的现代维护分支，API 兼容）
向PDF写入文字/水印/签名	`fitz`（PyMuPDF）	唯一能真正“绘制”新内容的库：它把 PDF 当画布，支持指定坐标、字体、颜色、透明度；`PyPDF2`只能“覆盖”已有页面，对空白页写入会失败。	`reportlab`（需从零生成PDF，不适合修改现有文件）

提示：别迷信“最新最火”的库。我去年帮一家银行处理贷款合同，用pdfminer.six解析，结果发现它对嵌入的 CID 字体（常见于日文/繁体中文PDF）支持极差，同一段文字在不同页面解析出乱码。最后切回pdfplumber，加一行layout_kwargs={"char_margin": 1.0}参数微调，问题当场解决。参数比库名重要十倍，而参数的取值依据，永远来自你手上的具体文件样本。

这个思路拆解背后，藏着一个更关键的认知转变：不要想着“用 Python 复刻 Adobe 的全部功能”，而是定义“我的最小闭环任务”。比如财务同事的需求，从来不是“编辑PDF”，而是“从100份PDF里，每份取第3页表格第2列第5行的数字，填到Excel第A列”。那么整个技术栈就极度精简：pdfplumber→ 提取表格 →pandas→ 数据清洗 →openpyxl→ 写入Excel。中间任何一环用错库，都会导致整条链路断裂。我见过最典型的错误，是有人为了“一步到位”，硬用fitz写 OCR 逻辑，结果发现fitz的 OCR 模块其实是调用系统 Tesseract，还得额外配环境变量，反而把简单问题复杂化。记住：组合拳比独门绝技更可靠，每个工具只做它最擅长的那件事。

3. 核心细节解析与实操要点：从“能跑通”到“稳落地”的关键控制点

光知道用哪个库远远不够。我在给某跨境电商做订单PDF自动归档时，脚本本地测试完美，上线后却每天凌晨3点报错——查日志发现，是供应商发来的PDF里混进了用Mac预览导出的“带图层PDF”，pdfplumber解析时内存暴涨到8GB。这类细节，文档里不会写，但却是项目成败的分水岭。下面我把三个高频任务中最容易翻车的细节，掰开揉碎讲清楚，包括为什么错、怎么查、怎么修。

3.1 文本提取：为什么你的正则永远匹配不上？坐标系才是真相

新手最大的幻觉，是认为PDF里的文字像Word一样有“顺序”。真相是：PDF渲染引擎按“绘制指令流”把文字一块块“画”上去，所以源文件里“标题”可能在代码里排第100行，但显示在页面最上方。pdfplumber的破局点，就是暴露这个底层坐标系。看这段真实代码：

import pdfplumber # 关键！必须开启 layout 分析，否则 get_text() 返回无结构字符串 with pdfplumber.open("invoice.pdf") as pdf: page = pdf.pages[0] # 这行代码返回的是一个包含所有字符坐标的字典列表 chars = page.chars print(f"页面共 {len(chars)} 个字符，坐标范围：x({min(c['x0'] for c in chars):.1f}-{max(c['x1'] for c in chars):.1f}), y({min(c['top'] for c in chars):.1f}-{max(c['bottom'] for c in chars):.1f})")

运行后你会看到类似输出：

页面共 2471 个字符，坐标范围：x(52.3-567.8), y(42.1-812.5)

注意y坐标：PDF 的原点在左下角，top值越小，位置越靠上！这就是为什么你用re.search(r"金额：\s*(\d+\.?\d*)", text)总是找不到——因为“金额：”和后面的数字，在PDF里可能是两个独立绘制的文本块，中间隔着公司logo的矢量图形，get_text()把它们强行拼接，空格数量完全不可控。

实操心得：

永远优先用page.extract_table()而不是page.extract_text()。表格有明确的行列结构，extract_table()会返回二维列表，比如[['商品', '单价', '数量'], ['iPhone', '5999.00', '1']]，直接table[1][1]就拿到单价，比正则可靠100倍。

当必须用正则时，锁定坐标区域。比如“总金额”一定在右下角100×50像素区域内：

# 定义右下角区域（x0, top, x1, bottom） bbox = (450, 750, 550, 800) # crop 区域后提取文本，大幅减少干扰 cropped_page = page.crop(bbox) text_in_region = cropped_page.extract_text() amount_match = re.search(r"总金额[:：]\s*(\d+\.?\d*)", text_in_region)

注意：crop()的坐标是(x0, top, x1, bottom)，不是(left, top, right, bottom)！这是pdfplumber的反直觉设计，我第一次用时调试了2小时才意识到。

3.2 扫描件OCR：300 DPI不是玄学，是光学物理的硬约束

扫描件处理最常被忽略的，是图像质量与OCR准确率的非线性关系。我们做过一组对照实验：同一份发票扫描件，用pdf2image以不同DPI转换，再用pytesseract识别“税号”字段（15位纯数字），结果如下：

DPI	识别准确率	单页处理耗时	典型错误
150	68%	0.8s	"123456789012345" → "12345678901234"（末位丢失）
200	82%	1.2s	"123456789012345" → "12345678901234S"（S误识）
300	96%	2.1s	仅1次将'0'识为'O'
400	97%	3.8s	无提升，但内存占用翻倍

为什么是300？因为标准发票印刷的最小字号约8pt，1pt≈0.35mm，300 DPI 意味着每毫米有118个像素点，足以清晰分辨8pt字体的笔画间隙。低于此值，OCR引擎的卷积神经网络就缺乏足够特征点做判断。

实操要点：

必须关闭抗锯齿（anti-aliasing）。pdf2image默认开启，会让文字边缘模糊，OCR误判率飙升。正确写法：

from pdf2image import convert_from_path images = convert_from_path( "scanned.pdf", dpi=300, # 关键！禁用抗锯齿，保留文字锐利边缘 use_pdftocairo=False, # 如果用 pdftocairo，需额外加 -r 300 参数 )

预处理图像比换OCR引擎更有效。很多教程鼓吹换easyocr，但实测对中文发票，pytesseract+ 图像二值化提升更大：

import cv2 import numpy as np from PIL import Image def preprocess_image(pil_img): # 转OpenCV格式 img_cv = cv2.cvtColor(np.array(pil_img), cv2.COLOR_RGB2BGR) # 转灰度 gray = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY) # 高斯模糊降噪（半径1，太大会糊字） blurred = cv2.GaussianBlur(gray, (1, 1), 0) # 自适应二值化，比固定阈值更鲁棒 binary = cv2.adaptiveThreshold( blurred, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 11, 2 ) return Image.fromarray(binary) # 使用预处理后的图像OCR processed_img = preprocess_image(images[0]) text = pytesseract.image_to_string(processed_img, lang='chi_sim')

3.3 PDF写入：为什么你的水印总是“飘”在奇怪位置？

用fitz给PDF加水印，新手常犯的错是直接写page.insert_textbox()，结果水印出现在页面中央，而需求是“右下角距底边2cm、右边界1.5cm”。这是因为fitz的坐标系原点在左上角，且单位是磅（point），1英寸=72磅，1cm≈28.35磅。所以“右下角”需要计算：

x = page.rect.width - 1.5 * 28.35（距右边界1.5cm）
y = page.rect.height - 2 * 28.35（距底边2cm）

但还有个隐藏陷阱：PDF页面可能有裁剪框（CropBox），它定义了用户实际看到的区域，而page.rect返回的是媒体框（MediaBox），可能比裁剪框大。如果PDF是用Acrobat“裁剪页面”功能处理过的，直接用page.rect计算坐标，水印就会跑到看不见的区域外。

正确姿势：

import fitz doc = fitz.open("input.pdf") page = doc[0] # 关键！用裁剪框而非媒体框 crop_rect = page.cropbox x = crop_rect.x1 - 1.5 * 28.35 # x1是右边界 y = crop_rect.y1 - 2 * 28.35 # y1是下边界 # 创建水印文本框（注意：y坐标是基线位置，不是顶部！） text_rect = fitz.Rect(x - 100, y - 20, x, y) # 宽100高20的矩形 page.insert_textbox( text_rect, "CONFIDENTIAL", fontsize=36, fontname="helv", # Helvetica，确保跨平台可用 color=(0.8, 0.8, 0.8), # 浅灰色 rotate=30, # 旋转30度 overlay=True, # 置于顶层 ) doc.save("output.pdf")

提示：fontname必须用fitz内置字体名（如"helv","cour"），不能写"Helvetica"。我曾因这个细节，导致生成的PDF在Linux服务器上显示为方块，排查了整整一天。

4. 实操过程与核心环节实现：一个真实工作流的完整复现

现在，我们把前面所有知识点，组装成一个企业级真实需求：某教育机构需要每天处理200+份学员结业证书PDF，要求自动在每份证书的指定位置（右下角）添加带时间戳的电子签章，并按学员姓名归档到对应文件夹。这个需求看似简单，但涵盖了文本提取（读取姓名）、页面操作（定位签章位置）、内容写入（绘制签章）、文件管理（归档）四大模块。下面是我的生产环境代码，已脱敏，可直接运行。

4.1 环境准备与依赖安装

先明确一点：不要用pip install pdfplumber pytesseract PyPDF2 PyMuPDF一把梭。这些库有隐式依赖冲突，尤其是PyMuPDF（即fitz）在Windows上需要预编译的.whl文件。我的标准流程是：

# 1. 创建干净虚拟环境（强烈推荐，避免包冲突） python -m venv pdf_env source pdf_env/bin/activate # Linux/Mac # pdf_env\Scripts\activate # Windows # 2. 按顺序安装（顺序很重要！） pip install --upgrade pip # 先装PyMuPDF，它自带C扩展，单独装最稳 pip install PyMuPDF==1.23.23 # 锁定版本，避免新版bug # 再装pdfplumber，它依赖fitz但不冲突 pip install pdfplumber==0.10.2 # 最后装OCR相关（注意：tesseract引擎需系统级安装） pip install pdf2image==1.16.3 pip install opencv-python==4.8.1.78 pip install pytesseract==0.3.10 # 3. 系统级依赖（关键！） # Ubuntu/Debian sudo apt-get install tesseract-ocr libtesseract-dev # Mac (Homebrew) brew install tesseract # Windows: 下载 https://github.com/UB-Mannheim/tesseract/wiki 安装包，安装后把tesseract.exe路径加入系统PATH

实操心得：PyMuPDF版本必须锁死。1.23.23 是目前最稳定的LTS版本，1.24.x 开始引入异步IO，但在多进程处理PDF时偶发段错误。我线上服务跑了18个月零崩溃，靠的就是这个版本钉住。

4.2 核心脚本：`cert_processor.py`

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ 教育机构结业证书自动签章与归档脚本 功能：1. 从PDF中提取学员姓名（基于固定位置文本）；2. 在每页右下角添加带时间戳的电子签章；3. 按姓名创建文件夹并保存 作者：资深PDF自动化工程师（10年实战） """ import os import re import time import fitz # PyMuPDF import pdfplumber from datetime import datetime from pathlib import Path # ==================== 配置区（只需改这里） ==================== INPUT_DIR = Path("./input_pdfs") # 待处理PDF所在文件夹 OUTPUT_ROOT = Path("./output_archive") # 归档根目录 SIGNATURE_TEXT = "电子签章" # 签章文字 TIMESTAMP_FORMAT = "%Y-%m-%d %H:%M" # 时间戳格式 # 签章位置参数（单位：磅，1cm≈28.35磅） SIGN_X_OFFSET = 1.5 * 28.35 # 距右边界距离 SIGN_Y_OFFSET = 2.0 * 28.35 # 距底边界距离 SIGN_FONT_SIZE = 24 SIGN_COLOR = (0.2, 0.2, 0.2) # 深灰色 # ============================================================ def extract_name_from_pdf(pdf_path): """ 从PDF中精准提取学员姓名 策略：证书模板固定，姓名总在第1页"学员："字样后，且在同一行 """ try: with pdfplumber.open(pdf_path) as pdf: page = pdf.pages[0] # 获取所有文本行（保持布局） lines = page.extract_text_lines() for line in lines: # 查找"学员："开头的行 if "学员：" in line["text"]: # 正则提取"学员："后的中文姓名（2-4个汉字） name_match = re.search(r"学员：\s*([\u4e00-\u9fa5]{2,4})", line["text"]) if name_match: return name_match.group(1).strip() return None except Exception as e: print(f"[ERROR] 提取姓名失败 {pdf_path}: {e}") return None def add_signature_to_pdf(pdf_path, name): """ 给PDF每页添加电子签章 """ try: doc = fitz.open(pdf_path) timestamp = datetime.now().strftime(TIMESTAMP_FORMAT) full_text = f"{SIGNATURE_TEXT}\n{timestamp}" for page_num in range(len(doc)): page = doc[page_num] # 使用裁剪框计算安全坐标 crop_rect = page.cropbox x = crop_rect.x1 - SIGN_X_OFFSET y = crop_rect.y1 - SIGN_Y_OFFSET # 创建签章文本框（注意：y是基线，需上移字体高度） # fitz中fontsize=24时，实际高度约30磅，所以y要减去30 text_rect = fitz.Rect(x - 120, y - 30, x, y) page.insert_textbox( text_rect, full_text, fontsize=SIGN_FONT_SIZE, fontname="helv", color=SIGN_COLOR, align=fitz.TEXT_ALIGN_RIGHT, rotate=0, overlay=True, ) # 生成输出路径：按姓名分文件夹 output_dir = OUTPUT_ROOT / name output_dir.mkdir(parents=True, exist_ok=True) output_path = output_dir / f"{name}_结业证书_{int(time.time())}.pdf" doc.save(output_path) doc.close() return str(output_path) except Exception as e: print(f"[ERROR] 添加签章失败 {pdf_path}: {e}") return None def main(): """ 主流程：遍历输入文件夹，处理每个PDF """ if not INPUT_DIR.exists(): print(f"输入文件夹不存在: {INPUT_DIR}") return pdf_files = list(INPUT_DIR.glob("*.pdf")) if not pdf_files: print("输入文件夹中未找到PDF文件") return print(f"开始处理 {len(pdf_files)} 份证书...") success_count = 0 for pdf_file in pdf_files: print(f"\n--- 处理 {pdf_file.name} ---") # 步骤1：提取姓名 name = extract_name_from_pdf(pdf_file) if not name: print(f" [FAIL] 无法提取姓名，跳过") continue print(f" 提取姓名: {name}") # 步骤2：添加签章并归档 output_path = add_signature_to_pdf(pdf_file, name) if output_path: print(f" [OK] 已保存至: {output_path}") success_count += 1 else: print(f" [FAIL] 签章失败") print(f"\n=== 处理完成 ===") print(f"成功: {success_count}/{len(pdf_files)}") print(f"归档根目录: {OUTPUT_ROOT.absolute()}") if __name__ == "__main__": main()

4.3 运行与验证

将脚本保存为cert_processor.py，放入项目文件夹，按以下步骤执行：

准备测试文件：在./input_pdfs/下放1-2份证书PDF（确保第1页有“学员：张三”字样）。
首次运行（测试模式）：
```
python cert_processor.py
```
观察控制台输出，确认是否成功提取姓名、生成路径是否符合预期。
检查生成文件：打开./output_archive/张三/张三_结业证书_1712345678.pdf，用Acrobat或浏览器打开，确认签章是否在右下角、时间戳是否正确、文字是否清晰。
批量处理：确认无误后，把200份PDF丢进input_pdfs，再次运行。实测单核CPU处理1份PDF平均耗时1.8秒（含OCR则3.2秒），200份约12分钟。

实操心得：永远先用1份文件做端到端验证，再批量。我曾因一个os.path.join()的斜杠问题，导致Windows上生成的路径是output_archive\张三\...，而Linux脚本里写的是/，结果归档全乱套。现在我的习惯是：脚本第一行就打印print(f"当前工作目录: {Path.cwd()}")，所有路径用Path对象处理，彻底规避系统差异。

5. 常见问题与排查技巧实录：那些文档里不会写的“血泪经验”

再完美的脚本，上线后也会遇到意想不到的问题。下面是我整理的TOP5高频故障，每一条都来自真实生产事故，附带现象、根因、三步排查法、永久解决方案。这不是理论，是能让你少熬3个通宵的干货。

5.1 问题：`pdfplumber`提取的表格全是`None`，但用Acrobat打开明明有表格

现象：page.extract_table()返回None，page.extract_text()却能提取文字，说明PDF有文本，但表格结构丢失。

根因分析：PDF中的“表格”可能根本不是表格对象，而是用竖线/横线图形 + 文字块模拟的。pdfplumber的extract_table()依赖检测表格线，如果线条是用贝塞尔曲线绘制的（常见于InDesign导出PDF），或线条宽度<0.5磅，pdfplumber就识别不到。

三步排查法：

用pdfplumber的page.debug_tablefinder()可视化表格检测结果：

# 在脚本中加入 page.debug_tablefinder() # 会生成 debug.pdf，打开看红线是否框住表格

检查PDF是否加密：pdfplumber.open("file.pdf").metadata中查看encrypted字段。
用fitz检查页面是否有矢量图形：page.get_drawings()返回非空列表，说明有图形线。

永久解决方案：

方案A（推荐）：放弃extract_table()，用坐标切割。先人工测量表格左上角坐标(x0, y0)和右下角(x1, y1)，然后page.crop((x0,y0,x1,y1)).extract_text()提取区域文本，再用\n和\t分割。

方案B：用fitz提取所有文本块，按Y坐标分组：

blocks = page.get_text("blocks") # 返回 (x0,y0,x1,y1,text,...) 元组 # 按y0排序，每组y坐标相近的视为一行 rows = {} for block in blocks: y_center = (block[1] + block[3]) / 2 row_key = round(y_center / 10) * 10 # 每10磅为一行 if row_key not in rows: rows[row_key] = [] rows[row_key].append(block[4]) # text

5.2 问题：`pytesseract`识别中文全是乱码，或返回空字符串

现象：pytesseract.image_to_string(img, lang='chi_sim')返回空或????。

根因分析：Tesseract 的中文语言包未正确安装，或图像预处理过度导致文字断裂。

三步排查法：

终端直接运行Tesseract命令，绕过Python：
```
tesseract test.png stdout -l chi_sim
```
如果命令行也乱码，说明语言包问题；如果命令行正常，说明Python环境问题。
检查语言包路径：tesseract --list-langs，确认输出包含chi_sim。
用cv2.imshow()查看预处理后的图像，确认文字是否连成一片或断裂。

永久解决方案：

语言包安装（Ubuntu）：

sudo apt-get install tesseract-ocr-chi-sim # 或下载训练数据：https://github.com/tesseract-ocr/tessdata 里的 chi_sim.traineddata，放到 /usr/share/tesseract-ocr/4.00/tessdata/

预处理优化：禁用高斯模糊，改用中值滤波保边：

# 替换之前的 GaussianBlur median = cv2.medianBlur(gray, 3) # 3x3中值滤波，去椒盐噪声不糊字

5.3 问题：`fitz`添加的文字在Acrobat中显示为方块，但在浏览器中正常

现象：生成的PDF在Chrome/Firefox中文字正常，但在Adobe Acrobat Pro中显示为方块。

根因分析：Acrobat对嵌入字体要求更严格。fitz默认使用内置字体（如"helv"），但某些PDF模板设置了字体子集（Font Subset），导致Acrobat无法映射。

三步排查法：

用fitz检查PDF字体：doc.get_fontlist()，看是否包含helv。
用Acrobat的“文件 > 属性 > 字体”面板，查看生成PDF的字体列表。
尝试用fitz.Font("arial")，但需确保系统有Arial字体。

永久解决方案：

终极方案：嵌入TrueType字体。下载免费字体（如思源黑体），在脚本中加载：

# 下载 https://github.com/adobe-fonts/source-han-sans/releases/download/2.004R/SourceHanSansSC.zip # 解压后获取 SourceHanSansSC-Regular.otf font_path = "./SourceHanSansSC-Regular.otf" font = fitz.Font(fontfile=font_path) # 加载字体 page.insert_font(font) # 注册到页面 # 写入时指定字体 page.insert_textbox(text_rect, "文字", font=font, fontsize=24)

这样生成的PDF，Acrobat和浏览器都100%兼容。

5.4 问题：批量处理时脚本中途崩溃，已处理的文件丢失

现象：处理到第87个文件时因内存不足崩溃，前86个文件的签章已写入，但未归档到姓名文件夹。

根因分析：fitz的doc.close()未被调用，导致PDF句柄未释放，内存持续增长。

三步排查法：

监控内存：ps aux --sort=-%mem | head -10，看Python进程内存是否线性增长。
检查代码：确认每个fitz.open()后都有对应的doc.close()。
用try/finally强制关闭：

doc = fitz.open(pdf_path) try: # 处理逻辑 pass finally: doc.close() # 确保关闭

永久解决方案：

用上下文管理器（推荐）：

with fitz.open(pdf_path) as doc: # 自动close for page in doc: # 处理页面 pass

增加内存监控：在循环中加入：

import psutil process = psutil.Process() if process.memory_info().rss > 2 * 1024**3: # 超过2GB print("内存过高，重启进程...") os.execv(sys.executable, ['python'] + sys.argv) # 自重启

5.5 问题：生成的PDF文件体积暴增10倍

现象：原PDF 2MB，处理后变成25MB，传输和存储成本飙升。

根因分析：fitz在写入新内容时，默认将所有资源（包括未使用的字体、图像）重新嵌入，且未压缩。

三步排查法：

用fitz检查资源：doc.xref_length()返回对象数，对比处理前后。
用pdfsizeopt工具分析：pdfsizeopt input.pdf output.pdf。
检查是否启用了garbage=4参数（深度清理）。

永久解决方案：

保存时启用压缩与清理：

doc.save( output_path, garbage=4, # 清理未引用对象 deflate=True, # 压缩流 clean=True, # 清理冗余空格 linear=True, # 优化Web加载（可选） )

实测：2MB发票PDF，加签章后体积从25MB降至2.8MB，压缩率90%。

最后分享一个小技巧：所有PDF自动化脚本，我都会在开头加一行print(f"[{datetime.now().strftime('%H:%M:%S')}] 开始处理 {pdf_file.name}")。这样当批量运行时，控制台输出就是带时间戳的日志流，哪一步卡住了、耗时多久，一眼可知。这比任何监控工具都直接。毕竟，真正的工程能力，不在于多酷炫的技术，而在于让问题暴露得足够早、足够清楚。

查看全文

http://www.jsqmd.com/news/996938/