当前位置: 首页 > news >正文

使用Unstructured处理PDF文件的前置安装项

1. poppler
如果遇到报错pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?,则表明环境中缺少一个名为poppler的依赖库,或者它没有被正确地添加到系统的PATH环境变量中。unstructured库在处理PDF文件时,会依赖pdf2image,而pdf2image则需要poppler来处理 PDF。为了解决安装问题需要执行下面两个步骤:

1.1 安装 poppler
访问此https://github.com/oschwartz10612/poppler-windows/releases/下载最新的压缩包,压缩包的名字大概如Release-24.08.0-0.zip。解压后会得到一个poppler-24.08.0的文件夹,将解压后的文件夹放置到一个本地位置,例如C:\根目录。

1.2 配置环境变量
将刚刚解压后的Poppler文件夹中的bin文件夹的完整路径添加到系统环境变量path中。文件夹路径例如:C:\poppler-24.08.0-0\Library\bin。记得一路点击“确定”保存更改。

重启电脑!!!重启电脑!!!重启电脑!!!

2. Tesseract
https://github.com/UB-Mannheim/tesseract/wiki  ,Tesseract 是一个开源的光学字符识别(OCR)引擎。当 unstructured 处理 PDF 文件时(特别是 hi_res 策略),它首先会像人眼一样看PDF 的页面布局(这是由一个叫YOLOX的模型完成的)。然后,对于页面上的图像或者非文本部分,unstructured会使用Tesseract来“读取”这些图像中的文字,将它们转换成可编辑的文本。解决方案与我们处理poppler时如出一辙:我们需要下载、安装 Tesseract,并将其配置到系统路径中。

2.1 安装 Tesseract
访问此链接,下载最新的安装程序。通常文件名会是 tesseract-ocr-w64-setup-vX.X.X…exe (适用于64位系统)。

image

 

运行刚刚下载的安装程序。在安装过程中,会有一个选择组件的步骤,为了以防万一,可以选择安装多种语言的识别包:勾选"Additional language data"。

记下安装路径,默认路径通常是C:\Program Files\Tesseract-OCR。

image

 


2.2 配置环境变量
在系统环境变量path中添加刚刚记下的安装路径:如C:\Program Files\Tesseract-OCR。
除此之外,推荐再新建一个环境变量来告诉 Tesseract 语言包在哪里。新建如下系统变量:

变量名: TESSDATA_PREFIX
变量值: C:\Program Files\Tesseract-OCR\tessdata
至此,如果在终端中输入tesseract --version能正常输出版本号,则说明安装成功。

3. yolox模型

from unstructured.partition.pdf import partition_pdffname = "C:\\Users\\Lenovo\\Desktop\\2023量化\\附件2 信息学院本科生素质量化考评办法.pdf"
elements = partition_pdf(filename=fname,strategy='hi_res',hi_res_model_name="yolox")
for el in elements:if el["type"] == "Table":print(el["metadata"]["text_as_html"])
#     print(el.type),

错误信息:

SSLError: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /unstructuredio/yolo_x_layout/resolve/main/yolox_l0.05.onnx (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1129)')))"), '(Request ID: 757ef56e-88d9-4a7a-88ef-ff3fade2139c)')

解决方法:在hanggingface中下载模型,并修改配置
https://改为huggingface中文的.com/unstructuredio/yolo_x_layout/tree/main

1.下载

​ 下载地址:unstructuredio/yolo_x_layout at main (huggingface.co)

​ 2.修改配置

​ 打开python包所在的文件夹:

​ Lib\site-packages\unstructured_inference\models\yolox.py

​ 修改37行代码:

MODEL_TYPES = {"yolox": LazyDict(model_path='你的模型地址',label_map=YOLOX_LABEL_MAP,),"yolox_tiny": LazyDict(model_path=LazyEvaluateInfo(download_if_needed_and_get_local_path,"unstructuredio/yolo_x_layout","yolox_tiny.onnx",),label_map=YOLOX_LABEL_MAP,),"yolox_quantized": LazyDict(model_path=LazyEvaluateInfo(download_if_needed_and_get_local_path,"unstructuredio/yolo_x_layout","yolox_l0.05_quantized.onnx",),label_map=YOLOX_LABEL_MAP,),
}

 

http://www.jsqmd.com/news/52395/

相关文章:

  • Windows启动Redis没有出现图标的解决方法
  • 2025年11月开关电源厂家推荐榜单与选择指南,分析参考
  • 多核通信(AMPSMP)
  • 数据采集与技术融合班级作业四102302119庄靖轩
  • Mac法打开“xampp-osx-8.0.28-0-installer”,因为无法验证开发者。
  • 2025年专业的食品卫生级阀门TOP实力厂家推荐榜
  • 连续流光化学实践:光溴化反应(光化学溴化)的国际品牌与国产方案比较
  • 【05】海康相机开发——MVS基础简介、SDK开发包介绍(开发文档、库、示例)、MVS基础特性结合SDK讲解、运行时库路径、相机出图与SDK取图机制、开始采集停止采集
  • 2025年质量好的液压机TOP实力厂家推荐榜
  • 2025 年 11 月食材配送厂家实力推荐榜:学校/医院/企业/工厂/餐厅/酒店/产业园/工业园全场景高效配送服务,新鲜直达与品质保障之选
  • 2025年11月热敏纸工厂口碑评价:五大企业性能服务多维度比较
  • 2025 年 11 月精密机械加工厂家实力推荐榜:航空航天/无人机/军工/核电/氢能/钛合金零部件批量加工专家,匠心工艺与尖端技术深度解析
  • 2025年11月开关电源厂家口碑评价排行榜及解决方案指南
  • 河南商水种菇学技术,卫东15年老牌培训更靠谱!
  • 2025年11月自动化厂家推荐榜单与市场分析报告
  • 2025年11月自动化厂家推荐榜单:知名品牌综合对比与选择指南
  • 2025年靠谱的天然乳胶量身定制床垫厂家最新TOP排行榜
  • 破解电能质量难题!艾科瑞无功补偿与谐波治理,助企业远离力调电费罚款 (5)
  • 吴恩达深度学习课程三: 结构化机器学习项目 第一周:机器学习策略(三)模型性能与“人类性能”
  • 云南初中数学老师权威排名 2025:线上线下优质师资推荐,精准适配本地中考需求
  • 2025不锈钢管业企业TOP5权威推荐:金创管业管理水平如何
  • 2025年11月标签纸工厂推荐列表:知名企业综合评估与选择指南
  • 龙门加工中心厂家推荐:创世纪集团赢得行业认可
  • AE/PR插件-Samurai Sharpen v1.3.1 达芬奇视频智能锐化清晰插件
  • 2025年11月标签纸工厂避坑指南:权威资质验证与场景适配要点详解
  • 河南烘干机推荐哪家
  • 一次性说清楚!新西兰技术移民6分制途径完整指南
  • python-变量
  • 数据源切换的陷阱:Spring Boot中@Transactional与@DS注解的冲突博弈与破局之道 - 实践
  • 2025最新耐候胶供应商推荐!行业标杆企业权威榜单发布,品质实力双优助力工程密封安全耐候胶供应商推荐榜