当前位置: 首页 > news >正文

使用paddleocr提取PDF和图片文本

# pip install paddlepaddle paddleocr
import
sys from pathlib import Path current_path = Path(__file__).resolve().parent sys.path.append(str(current_path))import numpy as np from paddleocr import PaddleOCR from pdf2image import convert_from_path from PIL import Image from typing import Unionclass OCRPlugin:"""OCR插件"""def __init__(self):self.ocr = Noneself.init_model()def init_model(self):self.ocr = PaddleOCR(use_textline_orientation=True,doc_orientation_classify_model_dir=Path.joinpath(current_path, 'paddlex/official_models/PP-LCNet_x1_0_doc_ori'), # './paddlex/official_models/PP-LCNet_x1_0_doc_ori',doc_unwarping_model_dir=Path.joinpath(current_path, 'paddlex/official_models/UVDoc'), # './paddlex/official_models/UVDoc',text_detection_model_dir=Path.joinpath(current_path, 'paddlex/official_models/PP-OCRv5_server_det'), # './paddlex/official_models/PP-OCRv5_server_det',textline_orientation_model_dir=Path.joinpath(current_path, 'paddlex/official_models/PP-LCNet_x1_0_textline_ori'), # './paddlex/official_models/PP-LCNet_x1_0_textline_ori',text_recognition_model_dir=Path.joinpath(current_path, 'paddlex/official_models/PP-OCRv5_server_rec'), # './paddlex/official_models/PP-OCRv5_server_rec', )def process_image(self, image: Union[str, np.array]):result = self.ocr.predict(image)[0]rec_texts = result['rec_texts']return rec_textsocr = OCRPlugin()def process_pdf(pdf_path):"""处理PDF:param pdf_path::return:"""# 需自行实现PDF转图片逻辑images = convert_from_path(pdf_path)text = ""for img in images:# print(type(img))np_img = np.array(img)# print(type(np_img))rec_texts = ocr.process_image(np_img)text += "\n".join(rec_texts)return textdef process_image(img_path):"""处理图片:param img_path::return:"""img = Image.open(img_path)text = ""np_img = np.array(img)rec_texts = ocr.process_image(np_img)text += "\n".join(rec_texts)return textif __name__ == '__main__':pass

第一次运行不指定模型路径,会默认下载到本地缓存。

http://www.jsqmd.com/news/23256/

相关文章:

  • 国产化Excel开发组件Spire.XLS教程:使用Python将CSV转换为XML(处理现实数据问题)
  • 2025年评价高的弥散供氧系统厂家最新推荐排行榜
  • 2025 年洗碗机厂家最新推荐榜,聚焦企业技术实力与市场口碑深度解析酒店 / 学校 / 工厂 / 全自动洗碗机公司推荐
  • css3关键字
  • 文档处理控件Aspose.Words教程:Python将Markdown转换为Word
  • 第八周物理实验:用扭摆法测量物体的转动惯量
  • 2025 年蔬菜配送服务公司最新推荐榜,聚焦企业技术实力与市场口碑深度解析含深圳 / 宝安 / 东莞等区域优质服务商
  • 【每日一面】手写防抖函数
  • 最佳技术文档解决方案:用 PandaWiki 打造智能化产品文档体系
  • 模拟Ajax获取数据。表格显示, 带有分页功能,支持翻页,每页显示8行数据。响应式设计,适配不同屏幕尺寸
  • 2025年10月北京工装设计公司推荐榜:五强对比评测
  • 苏州GEO企业深度解析:行业中如何选择专业服务商 - 勤懒调和者
  • 高效便捷的安全数据交换系统,助力企业合规管理
  • 2025年10月北京工装设计公司排名:五家对比指南
  • 2025年10月防爆振动变送器厂家推荐:实力榜对比指南
  • 跨网文件交换怎么实现审批?从需求到落地的全解析!
  • MySQLDay5(基础篇完结)
  • 2025 年优质球墨铸铁管厂家最新推荐榜,技术实力与市场口碑深度解析
  • HTML之addEventListener示例
  • 2025 年茶叶行业优质品牌最新推荐榜,企业综合实力与市场口碑深度解析
  • 2025年10月北京写字楼装修公司推荐榜:筑垒领衔五强对比
  • 苏联复变函数论专家和教育家Б. В. 沙巴特
  • 2025年蕾蒂蔻品牌深度解析:渐进式自然美学下的科研质控全景
  • 指针的用法,函数,结构体,以及部分解释
  • 【深度解读】文件摆渡系统如何保障数据安全,减少数据泄露风险?
  • 2025年10月北京办公楼施工公司排名榜:精选五强
  • 2025年蕾蒂蔻产品深度解析:械字号轻医美供应链安全全景拆解
  • 一些看到的有趣玄学
  • 2025年10月北京工装设计公司推荐榜:筑垒领衔五强对比
  • 2025年10月绩效管理咨询公司推荐:实力榜对比评价