当前位置：首页 > news >正文

CVHub x PaddleOCR：X-AnyLabeling 升级 OCR 实战工作流，服务开发者数据闭环

news 2026/7/10 2:09:59

引言

在复杂文档解析场景中，模型完成识别只是第一步。真正决定 OCR 项目能否落地的，往往是解析结果能否被高效复核、修正、导出，并进一步沉淀为可用于训练、评测与业务集成的数据资产。对于开发者而言，OCR 的真实应用链路并不止于一次模型调用，而是贯穿文档解析、结果校验、人工修正、结构化导出、数据复用的完整流程。这也意味着，开发者需要的不只是一个高性能模型，更是一套能够承接模型输出、支持人机协同复核、并沉淀高质量数据资产的标注工作流。

近期，PaddleOCR携手CVHub开源团队，基于X-AnyLabeling完成了面向PaddleOCR-VL-1.5的OCR实战的完整适配。开发者可在X-AnyLabeling中直接调用PaddleOCR-VL-1.5，对复杂文档进行多任务解析，并在同一工具内完成结果查看、人工复核、标注修正与结构化导出。

基于此，PaddleOCR已将X-AnyLabeling纳入官方推荐使用工具体系，并指定其为PaddleOCR全球衍生模型挑战赛官方标注平台。后续，X-AnyLabeling将服务挑战赛及OCR系列实战活动，帮助开发者更高效地完成数据准备、结果校正、训练样本构建与模型迭代，进一步打通PaddleOCR从模型解析到数据闭环的工程化路径。

赛事信息：

https://mp.weixin.qq.com/s/fCgdBIKZBu3ptmZmTsjE-g

PaddleOCR官方教程：

https://www.paddleocr.ai/main/data_anno_synth/x_anylabeling.html

能力升级

从通用标注走向OCR实践

X-AnyLabeling具备灵活的数据标注、结果复核与结构化导出能力，为模型训练、数据复核和结果管理提供可视化工作流。通过统一界面承接数据导入、可视化标注、结果编辑和格式导出，降低了模型训练前的数据准备门槛。

在 OCR 和文档解析任务中，开发者面对的并不是单一图像目标，而是一整页文档中的多类型信息：正文段落需要保持阅读顺序，表格需要保留行列结构，公式需要转化为可编辑表达，图表需要提取结构化信息，印章等特殊元素也需要进入统一处理流程。因此，OCR 场景下的标注工具不能只停留在“人工画框”和“结果导出”，更需要具备承接模型解析结果、支持人工复核修正、并最终沉淀为可用数据的能力。

PaddleOCR-VL-1.5 的接入，正是对这一链路能力的关键加持。通过将复杂文档解析能力引入 X-AnyLabeling，PaddleOCR 让通用标注工具进一步升级为面向 OCR 实战的数据复核与结构化处理工作流。开发者可以先使用 PaddleOCR-VL-1.5 对文档内容进行智能预解析，再在 X-AnyLabeling 中完成可视化复核、人工修正和结构化导出。OCR 数据准备流程从传统的“人工查看原图—手动标注内容—整理结构化结果”，升级为 PaddleOCR-VL-1.5 智能预解析 → X-AnyLabeling 可视化复核 → 人工修正 → 结构化导出。

模型预解析，降低人工标注成本：PaddleOCR-VL-1.5 可先生成文档初步解析结果，再由开发者在 X-AnyLabeling 中进行复核和修正。相比从零手动标注，这一流程更适合多页文档、复杂排版、公式表格混排等场景，有助于降低数据准备成本并提升标注一致性；
多任务解析，扩展标注处理能力：PaddleOCR-VL-1.5 支持文本、表格、公式、图表、文本定位、印章等多类复杂文档元素解析，支持 X-AnyLabeling 承接不同文档元素的统一解析、复核与结构化沉淀；
区域级路由，提升文档处理精度：结合 PP-DocLayoutV3，PaddleOCR-VL-1.5 可先对文档进行版面区域分析，再按正文、表格、公式、图表、印章等类型分发对应解析任务，让复杂文档处理从整页统一识别走向区域级任务路由，减少手动拆分与重复调用成本；
结构化沉淀，打通后续数据流程：PaddleOCR-VL-1.5 输出的结构化解析结果，可通过 X-AnyLabeling 的 Document Parsing 与 JSON 视图呈现，便于开发者进一步复核、导出，并用于模型训练、评测验证、误差分析和业务系统集成

在 X-AnyLabeling

快速调用 PaddleOCR-VL-1.5

为便于开发者快速上手，X-AnyLabeling 支持通过本地服务或 API 调用方式接入 PaddleOCR 文档解析能力，开发者可以根据实际场景选择不同路径。以下为在 X-AnyLabeling 中调用 PaddleOCR-VL-1.5 的基本流程。

准备接入方式

开发者需要安装并启动 X-AnyLabeling。现支持两类调用方式：

本地接入X-AnyLabeling-Server：适合私有化部署、敏感数据处理和持续性标注任务
直接调用 PaddleOCR API：适合快速验证模型效果、低成本体验和轻量开发场景

调用 PaddleOCR API 需要获取 PaddleOCR 官方网站访问令牌以及 PaddleOCR-VL-1.5 的 API URL：

访问 PaddleOCR 官方网站【www.paddleocr.com】；
点击右上角【API】；

选择【PaddleOCR-VL-1.5】；
打开示例代码，复制其中的TOKEN（访问令牌）和API_URL，配置多模态文档解析 API URL。

（填写PaddleOCR官方网站访问令牌-用于接口鉴权，支持申请每天免费解析数万文档页数）

导入待解析文档

进入 X-AnyLabeling 后，开发者可以导入需要处理的图片或文档文件，包括教材页面、论文截图、票据图片、合同扫描件、表格文档、政企材料等真实 OCR 场景中的文档样例。

X-AnyLabeling 地址：

https://github.com/CVHub520/X-AnyLabeling/blob/main/docs/zh_cn/paddle_ocr.md

选择 PaddleOCR-VL-1.5 作为解析模型

在右侧解析区域中，开发者可以在Parsing model中直接选择 PaddleOCR-VL-1.5作为解析模型，也可以按需选择其他版本的 PaddleOCR 模型。

执行Document parsing

选择模型后，点击Document parsing，即可开始文档解析。以PaddleOCR-VL-1.5 为例，模型会自动对文档中的文本、公式、表格、图表、印章等内容进行识别和结构化处理，开发者可以直接在界面右侧查看解析内容。

对照原文档复核解析结果

解析完成后，X-AnyLabeling 会形成左右对照的工作界面，左侧为原始文档，右侧为 PaddleOCR-VL-1.5 的解析结果。开发者可以逐段检查文字内容、公式表达、表格结构、图表信息和印章结果是否准确。对于需要调整的内容，可以进一步进行人工复核和修正，确保质量。

切换 JSON 视图查看结果

除了Document parsing视图外，X-AnyLabeling 还支持查看 JSON 结果。Document parsing视图更适合人工阅读和结果复核，JSON 视图则更适合开发者进行数据处理、训练样本构建、评测结果整理和业务系统集成。通过 JSON 视图，开发者可以更清晰地查看解析结果的结构化表达，并进一步导出和复用。

导出结果

完成复核和修正后，开发者可以将标注结果导出，用于后续任务，典型用途包括：

构建 OCR 训练数据集；
进行模型评测和误差分析；
沉淀企业内部文档解析数据；
接入业务系统进行自动化处理。

至此，开发者即可完成从文档输入、模型解析、人工复核到结构化数据导出的完整流程。

从模型能力到工具链协同

持续共建开发者生态

在复杂文档场景中，模型能力的提升需要与开发者工具链协同推进对于开发者而言，高质量数据通常需要经历模型预解析、人工复核、错误修正、格式整理和训练样本构建等多个环节。X-AnyLabeling 与 PaddleOCR-VL-1.5 的结合，开发者能够将更多时间投入到模型优化、任务设计和效果提升中，而非耗费在重复的数据整理工作上。面向PaddleOCR 全球衍生模型挑战赛，PaddleOCR 已将 X-AnyLabeling 指定为官方标注工具，大力支持挑战赛中的数据准备、结果复核、样本构建与模型迭代等关键环节。

未来，PaddleOCR 将继续与 CVHub 等开源生态伙伴合作，围绕 OCR 数据标注、模型训练、评测验证和应用落地，持续完善开发者工具链。也期待更多开发者在 X-AnyLabeling 中体验 PaddleOCR-VL-1.5 的文档解析能力，并在PaddleOCR 全球衍生模型挑战赛及更多 OCR 实战场景中，共同推动复杂文档智能处理的应用落地。

关于 X-AnyLabeling

X-AnyLabeling 是由 CVHub 推出的工业级 All-in-One 智能标注平台，打通训练、推理、标注全链路，深度融合主流 AI 推理引擎与丰富的交互功能，内置数百种开箱即用的业界顶尖 SOTA 模型，覆盖从图像分类、检测、分割、跟踪、姿态、车道线、旋转目标检测、深度估计及 OCR 等基础视觉任务，到文档解析、可提示概念及交互式分割（SAM）、Grounding、Counting、视觉问答（VQA）、多模态理解、强化学习（RLVR）等大模型时代的全场景任务。平台面向全球 AI 开发者与数据团队——无论是科研机构、工业企业还是个人爱好者，都能通过统一的推理后端与可扩展的插件体系，获得从文本、图像到视频数据的一站式自动化标注体验，助力算法落地从原型验证到学术研究及工业部署的高效闭环。近期，X-AnyLabeling 新增了对 PaddleOCR 文档解析与智能文字识别标注面板的支持，适配 PaddleOCR-VL-1.5，并成为PaddleOCR 全球衍生模型挑战赛官方推荐标注工具。

👉了解 X-AnyLabeling：

https://github.com/CVHub520/X-AnyLabeling

关于 PaddleOCR-VL-1.5

PaddleOCR-VL-1.5 是百度飞桨面向复杂文档解析场景推出的轻量级视觉语言模型，重点解决真实文档中多元素、多版式、多干扰条件下的结构化理解问题。它采用 0.9B 级模型规模，在保持资源高效的同时，支持文本、表格、公式、图表、文本定位、印章识别等多类文档元素解析，并可输出 Markdown、JSON 等结构化结果。PaddleOCR-VL-1.5 在 OmniDocBench 上达到 94.5% 的准确率，并进一步增强了对扫描、倾斜、弯折、屏幕拍摄和复杂光照等真实落地场景的鲁棒性，同时支持文档元素异形框定位，使其能够更好适配复杂版面与非规则区域的文档解析需求。截至 2026 年 5 月，PaddleOCR 在 GitHub 上已获得超 77.2k 星标，是全球文档解析领域最具影响力的开源模型之一。

👉了解 PaddleOCR-VL-1.5 ：

https://github.com/PaddlePaddle/PaddleOCR

加入我们

诚挚邀请全球相关开源项目、开发者工具链团队及各类行业伙伴，与文心大模型、飞桨共建开源生态，共同推进文档解析、知识智能与企业级AI技术的普及与落地。

与文心大模型（ERNIE）、飞桨（PaddlePaddle）开展相关开源生态合作，伙伴可获得：