当前位置: 首页 > news >正文

开源69.9k星标,国产OCR杀进全球第一梯队,全新升级,文档再歪再糊也不怕(附源码)

大家好,我是小悟。

最近,百度飞桨团队把新一代文档解析模型 PaddleOCR-VL-1.5 开源了,开源Star已获69.9k。

说实话哈,这两年“大模型”三个字到处都能听见,但真正有用处的,是这种扎扎实实解决具体问题的工具。

尤其当你被各种“歪、斜、糊、折”的文档折磨过,就知道一个靠谱的 OCR 有多重要。

😫 真实场景的痛点

先说说我自己的真实感受。

你拍一张发票,角度稍微偏一点,表格线就歪成波浪。扫描一份合同,边角折一下,整段文字就错位。翻拍 PPT,投影仪的阴影一挡,识别结果直接乱成一锅粥。

传统 OCR 在“干净”的测试集上跑分很高,但一到真实业务里,就各种掉链子。表格线对不上、阅读顺序乱跳、公式变成一堆乱码。

这就是我特别觉得 PaddleOCR-VL-1.5 好的原因:它能够在真实、混乱的场景里,把 OCR 往靠谱的方向又推了一把。

🤔 PaddleOCR-VL-1.5 是什么?

简单来说,它是百度飞桨团队开源的一款多模态文档解析模型,核心特点就三个字:小、准、全。

小:模型参数只有 0.9B,属于“小钢炮”级别,但能力一点不弱。

准:在全球权威文档解析评测 OmniDocBench v1.5 上,综合精度干到了 94.5%,超过了多款主流模型。

全:不仅能识别文字,还能处理表格、公式、图表、印章,甚至能理解文档的阅读顺序。

它延续了 PaddleOCR-VL 的架构,视觉部分用 NaViT,语言部分基于 ERNIE-4.5-0.3B,组合起来专门干一件事:把各种文档变成结构化的数据。

✨ 核心功能亮点

这次 1.5 版本,有几个升级让我印象很深:

“异形框定位”,专治歪七扭八

以前 OCR 框出来的都是规规矩矩的矩形,稍微歪一点就废了。现在它能按内容轮廓,直接给你一个多边形框,完美贴合倾斜、弯曲的文本区域。

扫描、弯折、屏幕翻拍这些“脏数据”,简单说,就是你随便拍,它尽量帮你还原。

多任务一体化,告别“模型堆砌”

以前想做个文档解析系统,得搭一堆模型:一个识别文字,一个识别表格,一个处理公式……现在 PaddleOCR-VL-1.5 一个模型全包了:

OCR(普通文本)

Table Recognition(表格识别)

Formula Recognition(公式识别)

Chart Recognition(图表解析)

Seal Recognition(印章识别)

Text Spotting(文本行级定位+识别)

对于开发者来说,维护成本直接砍掉一大截。

长文档处理,不再“断章取义”

处理几十上百页的 PDF 时,最烦的就是跨页表格断开、标题对不上。1.5 版本支持跨页表格自动合并和跨页段落标题识别,长文档解析的连贯性好了很多。

多语种 & 复杂结构优化

支持100多语种,对生僻字、古籍、多语种表格、下划线和复选框等复杂结构做了专项优化。如果你经常处理多语言文档或扫描件,这点会很实用。

性能与部署友好

支持 vLLM 推理,吞吐能再提 3-5 倍。同时兼容 HuggingFace Transformers,也支持 Ascend NPU、Kunlun XPU 等国产芯片,对国内用户很友好。

🚀 上手体验如何?

安装过程很常规,pip 一下就行。命令行一条命令,就能把图片解析成 Markdown,表格、标题层级都保留得很好。

用 Python API 调用也简单,初始化模型后,predict 一下就能拿到结构化结果,支持保存成 JSON、Markdown 等格式。

本地安装

安装PaddlePaddle执行以下命令安装: python-m pip install paddlepaddle-gpu==3.3.0-i https://www.paddlepaddle.org.cn/packages/stable/cu118/然后安装paddleocr # 只希望使用基础文字识别功能(返回文字位置坐标和文本内容),包含 PP-OCR 系列 python-m pip install paddleocr # 希望使用文档解析、文档理解、文档翻译、关键信息抽取等全部功能 # python-m pip install"paddleocr[all]"API方式推理 from paddleocrimportPaddleOCR# 初始化PaddleOCR实例 ocr=PaddleOCR(use_doc_orientation_classify=False,use_doc_unwarping=False,use_textline_orientation=False)# 对示例图像执行 OCR 推理 result=ocr.predict(input="https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")# 可视化结果并保存 json 结果forres in result:res.print()res.save_to_img("output")res.save_to_json("output")

开源社区

在线使用/API: https://www.paddleocr.com 开源项目地址: https://github.com/PaddlePaddle/PaddleOCR模型地址: https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

当然,它也不是完美的。极端模糊、严重遮挡或者手写体特别潦草的情况下,还是会出错。但和以前用过的工具比,已经省了太多校对时间。

👍 为什么推荐它?

推荐 PaddleOCR-VL-1.5,不是因为它榜单分数多高,而是它解决了真实场景里的“脏活累活”。

对个人用户

如果你是学生、科研人员,或者经常和 PDF、扫描件打交道,它能帮你把大量时间从“敲键盘”里解放出来。

论文、笔记、合同,拍一拍就能变成可编辑、可搜索的结构化数据。

对开发者

它开源、模型小、能力强,支持多硬件部署,还能和 RAG、Agent 等系统无缝集成。

无论是做知识库、智能客服,还是财务报销、档案数字化,都能快速搭建一个靠谱的文档处理链路。

对AI生态

看到国产模型在 OCR 这种基础能力上做到全球领先,说实话,是有点骄傲的。

它让我们不用再完全依赖国外的 API,也为国内开发者提供了一个稳定、可控的选择。

🎯 最后

这两年大家都在追“大模型”,但真正能改变日常工作的,往往是这些扎扎实实的“小工具”。

PaddleOCR-VL-1.5 就是这样一个存在,能真真切切地帮你省时间、省力气。

谢谢你看我的文章,既然看到这里了,如果觉得不错,随手点个赞、转发、在看三连吧,感谢感谢。那我们,下次再见。

您的一键三连,是我更新的最大动力,谢谢

山水有相逢,来日皆可期,谢谢阅读,我们再会

我手中的金箍棒,上能通天,下能探海

http://www.jsqmd.com/news/338873/

相关文章:

  • eScan 杀毒软件被用于供应链攻击传播恶意软件
  • 必收藏!网络安全五大专业深度解析:谁主攻科研?谁进大厂拿高薪?小白程序员入门必看指南
  • PandaWiki:开源企业级AI知识库工具,基于RAG架构的私有化部署方案
  • 奇安信获NVDB-CAVD年度优秀技术支撑单位 10项原创漏洞证书彰显车联网安全实力
  • 无人机城市管理 AI+虚仿 创新实训室:构建城市管理智慧实训新构架
  • 基于springboot的大学生就业招聘系统-计算机毕业设计源码+LW无文档
  • 基于springboot健康管理微信小程序的设计与实现
  • 网络安全黑客入门必看:漏洞挖掘基础知识与平台收藏指南
  • 基于springboot的电动车租赁平台系统-计算机毕业设计源码+LW无文档
  • 国产化工业数据库推荐品牌崛起,筑牢工业高质量发展数据根基 - 速递信息
  • leetcode 3637. 三段式数组 I 简单
  • SpringBoot + Arthas,线上监控诊断进阶玩法!
  • 1月30号:急不来
  • 资源不够用,真的是机器太少吗?
  • SpringBoot 高效处理图片压缩包:上传、解压与存储实战指南
  • Spring AOP + Guava RateLimiter:我是如何用注解实现优雅限流的?
  • 大模型训练全流程解析:从“书呆子“到“智能体“的蜕变之路
  • 别被“涂颜色”骗了——从「栅栏涂色(Paint Fence)」看动态规划真正的思维方式
  • 谋新篇,启新程-群峰机械30周年庆典暨新综合大楼、新厂房落成典礼圆满成功
  • 混用 @Transactional 和 TransactionTemplate 被怼了,三种事务管理到底怎么选?
  • LangGraph多智能体实战:从零构建专业AI研究助手,附完整代码
  • 信息差永远是最容易上手的生意
  • Python:帧对象
  • 《实时渲染》第2章-图形渲染管线-2.6管线综述
  • 为什么AI人才值钱?月薪1.8万只是开始,普通人如何抓住AI风口实现薪资跃迁
  • 科思顿SCISTON:以技术引领市场,凭口碑赢得电动窗帘销售榜Top1
  • 多卡种兼容读卡器,堪称智能一卡通领域的“全能战士”。其核心价值在于通过一颗硬件,解决了不同时期、不同标准、不同应用下卡片兼容性的终极难题,是实现“一卡通行、一卡通用”理想的物理基础
  • 本杰明·格雷厄姆的工作资本分析技巧
  • 【会员】2014-2025年全国监测站点的逐时空气质量数据(15个指标\Excel\Shp格式)
  • RAGFlow工程师必看:微服务架构设计与企业级部署实践