当前位置: 首页 > news >正文

解锁 PDF 内容:如何用 Python 从 PDF 中快速提取文本

在现代办公环境中,PDF 文件作为一种通用的文档格式被广泛使用。无论是合同、报告还是电子书,很多重要信息都储存于 PDF 文件中。因此,从 PDF 文件中提取文本数据的需求也逐渐增加。本文将为大家介绍如何使用 Spire.PDF for Python 来实现这一功能,具体包括从某一页和从指定区域提取文本。

1. 环境准备

首先,确保你已经安装了 Python 和 Spire.PDF 的相关库。你可以通过以下命令安装 Spire.PDF:

pip install Spire.PDF

2. 从指定页面提取文本

2.1 代码示例

以下代码展示了如何从 PDF 文档中的特定页(例如第2页)提取文本:

from spire.pdf.common import * from spire.pdf import * # 创建一个 PdfDocument 对象 doc = PdfDocument() # 加载 PDF 文档 doc.LoadFromFile('C:/Users/Administrator/Desktop/Terms of service.pdf') # 创建 PdfTextExtractOptions 对象并启用全文本提取 extractOptions = PdfTextExtractOptions() # 提取所有文本,包括空格 extractOptions.IsExtractAllText = True # 获取特定的页面(例如,第2页) page = doc.Pages.get_Item(1) # 创建 PdfTextExtractor 对象 textExtractor = PdfTextExtractor(page) # 从页面中提取文本 text = textExtractor.ExtractText(extractOptions) # 使用 UTF-8 编码将提取的文本写入文件 withopen('output/TextOfPage.txt', 'w', encoding='utf-8') as file: file.write(text)

2.2 代码解析

  1. 创建PdfDocument对象:这一步是加载 PDF 文件的第一步。
  2. 加载 PDF 文档:使用指定路径加载你要处理的 PDF 文件。
  3. 配置提取选项:通过设置IsExtractAllText为 True,确保提取所有文本,包括空格。
  4. 获取特定页面doc.Pages.get_Item(1)获取的是 PDF 的第二页(索引从0开始)。
  5. 创建文本提取器并提取文本:使用PdfTextExtractor对象来提取文本。
  6. 将提取的文本保存为文件:最终将文本内容保存到指定路径的文件中。

3. 从指定区域提取文本

有时候,仅提取 PDF 中的某一特定区域的文本更加有效。这可以通过定义一个矩形区域来实现。

3.1 代码示例

以下代码将展示如何从 PDF 的指定区域提取文本:

from spire.pdf.common import * from spire.pdf import * # 创建一个 PdfDocument 对象 doc = PdfDocument() # 加载 PDF 文档 doc.LoadFromFile('C:/Users/Administrator/Desktop/Terms of service.pdf') # 获取特定的页面(例如,第2页) page = doc.Pages.get_Item(1) # 创建 PdfTextExtractor 对象 textExtractor = PdfTextExtractor(page) # 创建 PdfTextExtractOptions 对象 extractOptions = PdfTextExtractOptions() # 定义提取的矩形区域 # RectangleF(left, top, width, height) extractOptions.ExtractArea = RectangleF(0.0, 100.0, 890.0, 80.0) # 从指定区域提取文本,保留空格 text = textExtractor.ExtractText(extractOptions) # 使用 UTF-8 编码将提取的文本写入文件 withopen('output/TextOfRectangle.txt', 'w', encoding='utf-8') as file: file.write(text)

3.2 代码解析

  1. 加载 PDF 文件:与之前相同,首先加载 PDF 文档。
  2. 获取特定页面:依然使用doc.Pages.get_Item(1)来获取第2页。
  3. 定义提取区域:通过RectangleF类来定义一个矩形区域,该区域的左上角坐标为(0, 100),宽度为890,高度为80
  4. 执行文本提取:然后使用ExtractText方法从指定区域提取文本。
  5. 保存文本:最后,提取的文本同样保存为 UTF-8 编码的文件。

结论

通过以上方法,我们可以方便地从 PDF 文档中提取所需的文本信息。Spire.PDF for Python 提供的 API 简洁高效,能够满足多种文本提取需求。不论是从全页提取还是从特定区域提取,在实际工作中都能显著提高效率,尤其对于需要处理大量 PDF 文件的场合,使用此工具将使你事半功倍。

希望这篇博客能够帮助你更好地理解如何使用 Python 提取 PDF 文本,让你的工作更轻松高效!

http://www.jsqmd.com/news/206882/

相关文章:

  • 【课程设计/毕业设计】基于机器学习训练手写数字识别 python基于cnn训练手写数字识别
  • 设备管理是操作系统的重要组成部分,其定位在于协调和控制计算机系统中的各类硬件设备
  • 宏智树AI如何用“智能三板斧”搞定选题、框架与文献?
  • 芒果病害数据集6593张VOC+YOLO格式(已增强)
  • 基于java的SpringBoot/SSM+Vue+uniapp的校园心理咨询系统的详细设计和实现(源码+lw+部署文档+讲解等)
  • 全网最全MBA必看TOP8AI论文写作软件测评
  • 深度学习毕设选题推荐:基于cnn训练手写数字识别基于机器学习训练手写数字识别
  • 编写好的代码,AI 才会奖励你
  • 床单污渍检测数据集3935张VOC+YOLO格式
  • Python入门筑基指南!!!
  • 2026最新全网6种方法教你如何关闭Win10/Windows11系统自动更新,一键彻底关闭win11系统自动更新
  • 【毕业设计】基于python深度学习的猫狗表情识别
  • 达梦 DM8 数据库 Kylin Server 环境实战:实例配置与 SQL 开发全攻略
  • 温故Windows - Windows 任务管理器深度指南
  • 深度学习毕设项目:机器学习基于CNN图像识别昆虫类别基于CNN图像识别昆虫类别
  • 网络安全渗透面试十题以及答案,从零基础入门到精通,收藏这一篇就够了!
  • 排水管道缺陷数据集4767张VOC_YOLO(已增强)
  • 【毕业设计】基于机器学习CNN图像识别昆虫类别基于CNN图像识别昆虫类别
  • 实操干货!近地面无人机影像辐射/几何校正+SfM点云全流程处理(附代码+实践案例)
  • 从零到一:手把手教你安装达梦数据库(DM8)
  • 【课程设计/毕业设计】基于CNN图像识别昆虫类别基于python图像识别昆虫类别
  • 《国产数据库技术》学习心得:以达梦数据库为例的深度探索与实践
  • 国产 DM 数据库技术学习心得与实践探索
  • 生物信息从业者必看:Python不是可选技能是刚需!经典案例+自学经验一次性奉上
  • Javascript里怎么把数字拆成单字符数组丨Javascript里遍历数组累加计算平方和的快捷方法
  • 【生产任调度】基于粒子群算法求解车间生产任务分配优化问题附Matlab代码和论文
  • 深度学习毕设选题推荐:基于python的猫狗表情识别基于python深度学习的猫狗表情识别
  • 2025 长续航手机推荐:三星四款机型的续航实力解析
  • JavaScript数组方法大全(按场景分类总结)
  • 三折叠手机有什么使用场景和优势?三星Galaxy Z TriFold给出新答案