当前位置: 首页 > news >正文

mineru离线环境解析文档报“Connection to paddleocr.bj.bcebos.com timed out.”

一.错误描述

在离线环境的服务器中,使用mineru解析文档时,可能会报如下的错误:

HTTPSConnectionPool(host='paddleocr.bj.bcebos.com', port=443): Max retries exceeded with url: /PP-OCRv4/chinese/ch_PP-OCRv4_det_infer.tar (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7ff1e49af100>, 'Connection to paddleocr.bj.bcebos.com timed out. (connect timeout=None)'))

报这个错误的原因是mineru中使用了百度飞浆的OCR的能力,在解析文档时,会自行下载百度飞浆的模型文件。由于服务器是离线环境,所以在下载模型文件时,会连接超时。

二.文件下载

针对上述问题,我们可以先在有网络的环境,将所需要的模型文件下载好后,再拷贝到离线环境的服务器中。根据本文中错误提示信息,我们发现是需要下载中中和英文的PP-OCRv4这个版本的OCR。本例中一共需要下载了三类模型文件。
1.ch_PP-OCRv4_det_infer.tar(文本检测模型)
作用:
检测图像中文字的位置,用矩形框标出文本区域。

下载地址:

2.ch_PP-OCRv4_rec_infer.tar(文本识别模型)

作用:识别文本区域中的具体文字内容。

下载地址:https://paddleocr.bj.bcebos.com/PP-OCRv4/chinese/ch_PP-OCRv4_rec_infer.tar

3.ch_ppocr_mobile_v2.0_cls_infer.tar(文本方向分类模型)

作用:判断文本的方向,进行自动旋转校正。

下载地址:https://paddleocr.bj.bcebos.com/dygraph_v2.0/ch/ch_ppocr_mobile_v2.0_cls_infer.tar

三.文件拷贝

对于步骤二中已经下载好的三个模型文件,我们可以使用U盘将模型文件拷贝到离线的mineru服务器。本文中是将模型文件服务器的home目录下了。
1.ch_PP-OCRv4_det_infer.tar(文本检测模型)

tar -xvf ch_PP-OCRv4_det_infer.tar mkdir -p /root/.paddleocr/whl/det/ch/ch_PP-OCRv4_det_infer/ cp -R /home/ch_PP-OCRv4_det_infer/* /root/.paddleocr/whl/det/ch/ch_PP-OCRv4_det_infer/

2.ch_PP-OCRv4_rec_infer.tar(文本识别模型)

tar -xvf ch_PP-OCRv4_rec_infer.tar mkdir -p /root/.paddleocr/whl/rec/ch/ch_PP-OCRv4_rec_infer/ cp -R /home/ch_PP-OCRv4_rec_infer/* /root/.paddleocr/whl/rec/ch/ch_PP-OCRv4_rec_infer/

3.ch_ppocr_mobile_v2.0_cls_infer.tar(文本方向分类模型)

tar -xvf ch_ppocr_mobile_v2.0_cls_infer.tar mkdir -p /root/.paddleocr/whl/cls/ch_ppocr_mobile_v2.0_cls_infer/ cp -R /home/ch_ppocr_mobile_v2.0_cls_infer/* /root/.paddleocr/whl/cls/ch_ppocr_mobile_v2.0_cls_infer/

完成以上三个步骤的命令后,我们就把mineru所需要的模型文件拷贝到了相应的目录,此时mineru就可以完成文档解析的操作了。
对于使用docker安装的mineru服务,我们可以使用docker cp命令将所有的模型文件拷贝到容器的/root/.paddleocr/whl/对应的目录下即可。拷贝完成后,最好以此容器为基础来创建一个新的镜像,再以这个新镜像来启动容器,以避免容器重新启动后,拷贝的模型文件又被还原了。

docker cp /home/... container:/root/.paddleocr/...
http://www.jsqmd.com/news/194569/

相关文章:

  • C++ 入门第一课:命名空间、IO 流、缺省参数与函数重载全解析 - 实践
  • telnet远程登陆与管理
  • d3d9.dll文件损坏丢失找不到 打不开软件问题 免费下载方法
  • 25年总结 | 26年规划
  • Java 大视界 -- Java 大数据在智能医疗远程康复监测与个性化康复方案制定中的应用
  • 震惊!这家酶制剂工厂竟让同行都慌了
  • 千万别错过!这5家酶制剂厂让生产效益翻倍
  • BOM到底是什么?ERP里为什么没有它就不行
  • 2026专科生必看!10个降AI率工具测评榜单
  • 千万注意!这家酶制剂厂商竟如此权威
  • laravel的session_start(); 是在哪里调用的?
  • 你能成为AI数据训练师吗?工作内容与薪酬分析
  • 2026最新延吉炸鸡/韩式炸鸡本土品牌首选傲叔炸鸡——延边大学网红墙推荐,延吉本地特色加盟连锁餐饮店,延吉人气王,正宗延边风味的品质之选 - 全局中转站
  • GO 教程
  • 大数据领域数据目录与人工智能的融合应用
  • 【QuantumTuan:Qt】
  • 智慧工厂数据底座再获权威认可:YMatrix 携手赣锋锂业、孚能科技入选 2025 数据智能“星河”案例
  • Claude Code 13个工程实践:详解Claude Code之父Boris的技巧分享
  • 通过 Rust 库(Rust Python 包)—— 工程化
  • Vue 3 TypeScript 接口Interface使用示例
  • 如何解决recv被业务阻塞导致的 netlink 消息丢失问题?
  • 点分治
  • Flutter 页面为什么会频繁 rebuild?如何定位和优化?
  • 《法网破晓》《两个她》同日开机 法治现实与女性悬疑双线并行
  • 高效管理临时文件:自动化方案全解析
  • AI记忆系统完全指南:从入门到精通,让你的大模型不再“失忆“!小白程序员也能秒懂的智能体记忆架构实战
  • AI写作助手测评:谁是最强创作大脑?
  • 学长亲荐10个AI论文平台,专科生轻松搞定毕业论文!
  • 【Week 1, 2026】每周阅读三篇论文
  • 78页神级文档!AI Agent让小白程序员逆袭大厂,从“能写代码“到“能解决问题“,大模型时代必备技能!