当前位置：首页 > news >正文

百度：统一端到端文档解析Qianfan-OCR

news 2026/3/26 19:35:46

📖标题：Qianfan-OCR: A Unified End-to-End Model for Document Intelligence
🌐来源：arXiv, 2603.13398v1

🌟摘要

我们介绍了千帆-OCR，这是一个4B参数的端到端文档智能模型，它将文档解析、布局分析和文档理解统一在一个单一的视觉语言架构中。与传统的多级OCR管道不同，千帆-OCR管道将布局检测、文本识别和语言理解模块链接在一起，执行直接的图像到Markdown转换，并支持广泛的提示驱动任务——从结构化文档解析和表格提取到图表理解、文档问答和关键信息提取——所有这些都在一个模型中。端到端OCR的一个实际限制是失去了显式布局分析，这是管道用户通常依赖的元素定位和类型分类功能。我们引入Layout-as-Thought来弥合这一差距：由思考标记触发的可选思考阶段，其中模型在产生最终输出之前生成结构化的布局表示（边界框、元素类型和阅读顺序）。这种机制有两个目的：（1）它在端到端范式中恢复布局分析功能，使用户能够直接获得空间接地结果；（2）它在布局复杂、元素杂乱或阅读顺序不标准的文档上提供有针对性的准确性改进，其中结构先验有助于解决识别歧义。在特定于OCR的基准测试中，千帆-OCR在OmniDocBench v1.5（93.12）和OlmOCR Bench（79.8）上的所有端到端模型中排名第一。它还在包括OCRBench（880）、OCRBenchv2和CCOCR在内的通用OCR基准测试以及DocVQA、ChartQA和Charxiv等文档理解任务上取得了强劲的成绩，匹配了可比规模的通用视觉语言模型。在公钥信息提取基准测试上，千帆-OCR取得了最高的平均得分，超过了双子座-3.1Pro、双子座3-Pro、种子-2.0和Qwen3-VL-235B-A22B。该模型可通过百度AI云千帆平台公开访问，使用示例和最佳实践可在https://github.com/baidubce/Qianfan-VL获得。

🛎️文章简介

🔸研究问题：如何在一个统一的端到端模型中同时实现高精度的文档解析、布局分析和语义理解，从而解决传统多阶段流水线存在的误差传播和视觉上下文丢失问题？
🔸主要贡献：论文提出了Qianfan-OCR，一个4B参数的端到端模型，通过引入"Layout-as-Thought"机制，在保持端到端优势的同时恢复了显式布局分析能力，并在多项基准测试中超越现有流水线系统及通用大模型。

📝重点思路

🔸采用统一的视觉-语言架构，集成布局分析、文本识别和语义理解，直接实现从图像到Markdown的转换，避免了多阶段系统的误差累积。
🔸提出"Layout-as-Thought"机制，通过触发特定token让模型在输出最终结果前先生成结构化的布局表示（边界框、元素类型、阅读顺序），以辅助复杂文档的推理。
🔸构建大规模合成数据流水线，涵盖文档解析、关键信息提取、复杂表格、图表理解及192种语言的多模态指令微调数据，特别强化了细粒度布局标签体系。
🔸实施四阶段渐进式训练策略，从跨模态对齐到基础OCR训练，再到领域增强和指令微调，并在领域专用训练中混合通用数据以防止过拟合。

🔎分析总结

🔸在OmniDocBench v1.5和OlmOCR Bench上，Qianfan-OCR在所有端到端模型中排名第一，性能甚至优于部分传统流水线系统。
🔸实验表明"Layout-as-Thought"机制在布局复杂度高（高熵）的文档中能显著提升准确率，而在简单文档中关闭该模式可获得更低延迟和更高分数。
🔸在需要空间推理的任务（如图表理解、学术文档问答）中，端到端模型远超“ OCR+LLM"两阶段流水线，后者因丢失视觉结构信息而在部分任务上得分为零。
🔸在关键信息提取任务上，该模型平均得分超越 Gemini-3.1-Pro及参数量大数十倍的Qwen3-VL变体，展现了极强的字段关联与抽取能力。
🔸通过W8A8量化，模型在单卡上的推理吞吐量可与高效流水线系统媲美，且部署架构更简单，避免了CPU成为瓶颈的问题。