当前位置: 首页 > news >正文

全球首次突破异形框定位难题,百度开源全新OCR模型 PaddleOCR-VL-1.5

1月29日,百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以仅0.9B参数的轻量架构,在全球权威文档解析评测榜单OmniDocBench V1.5中取得全球综合性能第一成绩,整体精度达到94.5%,超过Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。

值得关注的是,PaddleOCR-VL-1.5 全球首次实现OCR模型的“异形框定位”能力,使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,首次让“歪文档”实现稳定、可规模化解析。该技术解决了传统OCR模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题,可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。

PaddleOCR-VL-1.5 基于文心大模型进行开发,在 OmniDocBench V1.5多个关键指标上取得领先表现。其中,表格结构理解(92.8 分)和阅读顺序预测(95.8 分)两项核心指标上均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型 2–5 分不等。在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类其他模型约一半。这表明,PaddleOCR-VL-1.5 在复杂文档结构还原与版面逻辑理解方面具备更高稳定性,在合同、财报等高复杂度业务场景中拥有更高可用性。



2025年10月16日,百度首次发布并开源 PaddleOCR-VL模型,在 OmniDocBench V1.5 榜单中取得全球SOTA成绩,并连续五天登顶 HuggingFace全球模型总趋势榜与ModelScope全球模型总趋势榜双榜第一。

相比于上代,在功能层面,PaddleOCR-VL-1.5 进一步集成印章识别、文本检测与识别等任务能力,关键指标持续领跑;同时针对特殊场景与多语种识别进行系统优化,在生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升,并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档解析中的结构断裂问题。

近半年来,全球主流模型厂商密集布局 OCR 领域。1月27日,深度求索发布新一代 OCR 模型 DeepSeek-OCR-2,引入“因果流查询”机制,并将语言模型融入视觉编码,在OmniDocBench V1.5中实现91.09%精度。与此同时,Mistral AI、字节跳动、腾讯等企业也相继推出新一代 OCR 模型,行业竞争持续加剧。

业内分析认为,随着大模型加速进入金融、政务、制造等高复杂度业务流程,文档解析能力正从“能用”走向“稳定可规模化落地”。PaddleOCR-VL-1.5 在精度、复杂场景适应性与工程化能力上的系统突破,有望进一步降低产业应用门槛,推动 OCR 技术在真实生产环境中的深度落地。

目前,PaddleOCR-VL-1.5 已全面开源,开发者可通过GitHub、Hugging Face获取,并在 PaddleOCR 官网进行在线体验或通过百度智能云千帆平台调用API接口。

http://www.jsqmd.com/news/318719/

相关文章:

  • 智能指针详解
  • PVE 9.0 定制 Debian 13 镜像 支持 Cloud-Init 敏捷部署虚拟机【模板篇】
  • Java面试中的异常继承难题:自定义Exception避坑指南
  • Spring Boot的项目创建
  • 小程序毕设项目推荐-基于SpringBoot的医院设备管理及报修系统微信小程序基于springboot的医院设备管理及报修小程序的设计与实现【附源码+文档,调试定制服务】
  • 小程序毕设选题推荐:基于springboot的医院设备管理及报修小程序的设计与实现基于微信小程序的医院设备管理及报修系统【附源码、mysql、文档、调试+代码讲解+全bao等】
  • 基于SpringBoot的房屋租售系统毕业论文+PPT(附源代码+演示视频)
  • 销售实战资源合集
  • 使用 NanUI 快速创建具有现代用户界面的 WinForm 应用程序
  • AI运维专家圆桌:新兴技术类别的诞生
  • ServiceNow与Anthropic达成多年合作协议
  • 一款基于 .NET Avalonia 开源免费、快速、跨平台的图片查看器
  • 【课程设计/毕业设计】基于微信小程序的医院设备管理及报修系统基于springboot的医院设备管理及报修小程序的设计与实现【附源码、数据库、万字文档】
  • AI工具存在严重安全脆弱性,治理刻不容缓
  • 小程序计算机毕设之基于SpringBoot+微信小程序的微信医院医疗设备管理系统管理系统基于springboot的医院设备管理及报修小程序的设计与实现(完整前后端代码+说明文档+LW,调试定制等)
  • SolarWinds修复Web Help Desk四个关键漏洞
  • 小程序毕设项目:基于springboot的医院设备管理及报修小程序的设计与实现(源码+文档,讲解、调试运行,定制等)
  • 为啥大厂 FPS 进对局不立刻清空局外缓存,而是打完再清?(大白话超长版)
  • 【毕业设计】基于springboot的医院设备管理及报修小程序的设计与实现(源码+文档+远程调试,全bao定制等)
  • 大数据架构设计:非结构化数据处理系统搭建
  • 《明日方舟:终末地》:披着二游皮的基建模拟器
  • Redis 与大数据 NoSQL 数据库的融合应用
  • “抖音崩了”冲上热搜,无法正常搜索,刷视频功能未受影响
  • 提示工程架构师:如何用数据驱动提示优化,提升用户满意度?
  • weixin196运动健康小程序SpringBoot(源码)_kaic
  • 【计算机毕业设计案例】基于springboot医院固定资产设备维修报修系统基于springboot的医院设备管理及报修小程序的设计与实现(程序+文档+讲解+定制)
  • 大数据时序分析,这些要点你掌握了吗?
  • 掌握大数据领域Lambda架构的性能测试方法
  • AI大模型应用开发从理论再到实践:AI大模型应用开发学习路线,提升核心竞争力,非常详细建议收藏
  • YOLO26涨点改进 | 全网独家创新、细节涨点改进篇 | SCI 一区 2025 | 引入RHDWT残差离散小波变换,下采样创新改进,助力目标检测、图像分类、实例分割有效涨点