当前位置：首页 > news >正文

Python处理PDF的隐藏神器：PyMuPDF从安装到实战（附代码示例）

news 2026/6/29 12:30:23

Python处理PDF的隐藏神器：PyMuPDF从安装到实战（附代码示例）

在数据驱动的时代，PDF文档处理已成为开发者日常工作中的高频需求。无论是金融行业的报表分析、法律领域的合同解析，还是教育机构的试卷处理，高效精准的PDF操作工具都能显著提升工作效率。PyMuPDF作为Python生态中处理PDF文档的利器，凭借其卓越的性能和丰富的功能，正在成为专业开发者替代PyPDF2的首选方案。

与常见的PDF处理库不同，PyMuPDF基于MuPDF渲染引擎构建，不仅支持基本的文本提取和页面操作，还能处理加密文档、保留布局提取内容，甚至实现PDF与多种格式间的相互转换。本文将带您深入探索PyMuPDF的核心功能，通过实际代码演示如何解决开发中的真实痛点。

1. 环境准备与安装配置

1.1 安装PyMuPDF

PyMuPDF的安装过程极为简单，只需通过pip命令即可完成。但值得注意的是，该库在导入时使用fitz作为模块名，这是因其底层基于MuPDF的Fitz渲染引擎：

pip install PyMuPDF

安装完成后，可以通过以下方式验证安装版本：

import fitz print(fitz.__doc__) # 输出库版本信息

注意：虽然包名为PyMuPDF，但导入时必须使用import fitz，这是历史原因导致的命名约定。在代码中看到fitz时，指的就是PyMuPDF库。

1.2 可选依赖项

虽然PyMuPDF本身功能完整，但安装以下附加包可以解锁更多高级特性：

Pillow：增强图像处理能力
fontTools：支持字体子集化操作
pymupdf-fonts：提供额外的字体资源

pip install Pillow fontTools pymupdf-fonts

2. 核心功能实战演示

2.1 文档基础操作

PyMuPDF处理PDF文档的第一步是创建Document对象。以下代码展示了多种打开文档的方式：

# 从文件打开 doc = fitz.open("example.pdf") # 从内存数据打开 with open("example.pdf", "rb") as f: data = f.read() doc = fitz.open("pdf", data) # 创建新PDF文档 new_doc = fitz.open() # 空文档

文档对象包含丰富的属性和方法，可以获取文档元数据、页数等信息：

print(f"页数: {doc.page_count}") print(f"元数据: {doc.metadata}")

2.2 精准文本提取

PyMuPDF提供了多种文本提取模式，满足不同场景需求。以下示例展示了如何保留原始布局提取文本：

page = doc.load_page(0) # 加载第一页 # 提取纯文本（带换行符） plain_text = page.get_text("text") # 按块提取（保留段落结构） text_blocks = page.get_text("blocks") # 保留布局提取（HTML格式） formatted_text = page.get_text("html")

对于表格数据的提取，可以结合"dict"模式获取文本位置信息，然后进行后处理：

text_dict = page.get_text("dict") for block in text_dict["blocks"]: if "lines" in block: for line in block["lines"]: for span in line["spans"]: print(f"文本: {span['text']}, 位置: {span['bbox']}, 字体: {span['font']}")

2.3 高级搜索功能

PyMuPDF的文本搜索不仅快速，而且支持复杂匹配模式。以下代码演示了如何高亮显示所有匹配项：

# 搜索不区分大小写的文本 matches = page.search_for("python", case_sensitive=False) # 高亮显示搜索结果 for rect in matches: highlight = page.add_highlight_annot(rect) highlight.update()

3. 页面操作与文档转换

3.1 页面级操作

PyMuPDF允许对PDF页面进行各种修改操作。以下示例展示了如何旋转页面并插入新内容：

# 旋转页面90度 page.set_rotation(90) # 在指定位置插入文本 page.insert_text( point=(50, 50), # 坐标位置 text="机密文档", # 文本内容 fontsize=12, # 字体大小 color=(1, 0, 0) # RGB颜色（红色） )

3.2 文档合并与拆分

处理多文档时，合并与拆分是常见需求。PyMuPDF提供了高效的内存操作方法：

# 合并两个PDF doc1 = fitz.open("file1.pdf") doc2 = fitz.open("file2.pdf") doc1.insert_pdf(doc2) # 将doc2插入doc1末尾 doc1.save("merged.pdf") # 拆分PDF：提取特定页面 new_doc = fitz.open() new_doc.insert_pdf(doc1, from_page=2, to_page=5) # 提取第3-6页 new_doc.save("extracted.pdf")

3.3 格式转换

PyMuPDF支持将PDF转换为多种其他格式，同时也能将图像等文件转为PDF：

# PDF转HTML（保留布局） doc = fitz.open("input.pdf") doc.convert_to_pdf("output.html") # 图像转PDF pdf_bytes = fitz.open("image.png").convert_to_pdf() with open("output.pdf", "wb") as f: f.write(pdf_bytes)

4. 高级应用场景

4.1 处理加密文档

PyMuPDF可以处理受密码保护的PDF文件，支持多种加密算法：

# 打开加密文档 doc = fitz.open("encrypted.pdf", password="secret") # 加密保存新文档 doc.save("new_encrypted.pdf", encryption=fitz.PDF_ENCRYPT_AES_256, user_pw="123", owner_pw="456")

4.2 添加水印和页眉页脚

以下代码演示了如何为PDF添加统一的水印效果：

for page in doc: # 创建半透明水印 watermark = fitz.Rect(0, 0, 300, 100) page.insert_textbox( watermark, "内部使用", fontsize=36, color=(0, 0, 1, 0.3), # 蓝色，30%透明度 rotate=45, align=fitz.TEXT_ALIGN_CENTER )

4.3 提取文档内嵌资源

PyMuPDF可以提取PDF中嵌入的图像、字体等资源：

# 提取所有图像 for i, img in enumerate(page.get_images(full=True)): xref = img[0] pix = fitz.Pixmap(doc, xref) pix.save(f"image_{i}.png")

5. 性能优化技巧

5.1 批量处理加速

对于大批量文档处理，合理使用内存和缓存能显著提升性能：

# 批量处理多个文件 files = ["file1.pdf", "file2.pdf", "file3.pdf"] for file in files: with fitz.open(file) as doc: # 使用生成器处理页面，减少内存占用 for page in doc.pages(): process_page(page)

5.2 选择性加载

处理大型PDF时，可以只加载需要的页面以减少内存消耗：

# 仅加载前10页 doc = fitz.open("large.pdf") for page in doc.pages(start=0, stop=10): process_page(page)

5.3 增量保存

修改现有PDF时，使用增量保存可以避免重写整个文件：

doc.save("updated.pdf", incremental=True, encryption=fitz.PDF_ENCRYPT_AES_256)

查看全文

http://www.jsqmd.com/news/488105/

开源项目管理新选择：如何通过Plane实现团队高效协作

GLM-4.7-Flash快速体验：Ollama简单部署，即刻开启智能对话

DLMS/COSEM协议栈实战解析：从物理层到应用层的电能表数据采集

【Unity】HybridCLR：原生C#热更新革命

未来5年最赚钱的岗位曝光！AI产品经理3步进阶攻略，普通人也能All in！

次元画室自动化测试实战：Python脚本实现生成效果批量验证

被入侵的平台为什么要重装系统后再接入防御

惯性组合导航半实物仿真测试

Oracle Redo 日志操作手册

FaceRecon-3D效果分享：100+真实用户自拍生成的高质量UV纹理作品集

i茅台智能预约解决方案：自动化预约技术全解析

旧Mac重生：零门槛掌握OpenCore Legacy Patcher制作USB启动盘教程

YOLO X Layout场景应用：自动整理会议纪要，提升办公效率

智能体（Agent）是什么？2026年AI助理的入门指南

Qwen3-VL-8B系统集成案例：与Dify平台结合打造零代码多模态AI应用

【会议征稿通知】2026年3月计算机领域EI会议最后征稿：前沿领域高含金量会议，双一流高校主办，7天速录，IEEE出版，全学科EI会议，助力人才引进/科研绩效/学术提升/保研加分/项目结题/职称评审！

rclone保姆级教程：从安装到实战，轻松搞定云存储同步（含常见错误解决方案）

Redis基础数据结构

国信 iQuant 自动国债逆回购实战：Python 自动化闲钱理财

十五五具身智能规划纲要解读：政策领航打造中国具身未来

语音识别模型Qwen3-ASR-1.7B：一键部署实现实时字幕生成

edusrc某学院联奕系统漏洞通过常规测试手段拿下9rank

统信UOS系统故障排查：从黑屏报错到硬盘修复的完整指南

5-10两数之和

IO-Link物理层深度解析：从三线连接到信号迟滞的硬件基石

14，文件的基础操作

一文彻底搞懂 cloud-init：从初始化流程到 cloud.cfg 深度解析

护眼灯最好的牌子是哪个？2026年护眼台灯选购全指南｜深度点评书客、柏曼、霍尼韦尔、飞利浦等热门型号，揭开“越用越累眼”的真相，买前一定要看！

计算机毕业设计springboot基于Vue的不动产登记系统基于SpringBoot与Vue.js的房地产产权在线管理平台采用前后端分离架构的房屋资产数字化登记系统

flutter打包ipad 并上传Appstore