当前位置: 首页 > news >正文

百度:统一端到端文档解析Qianfan-OCR

📖标题:Qianfan-OCR: A Unified End-to-End Model for Document Intelligence
🌐来源:arXiv, 2603.13398v1

🌟摘要

我们介绍了千帆-OCR,这是一个4B参数的端到端文档智能模型,它将文档解析、布局分析和文档理解统一在一个单一的视觉语言架构中。与传统的多级OCR管道不同,千帆-OCR管道将布局检测、文本识别和语言理解模块链接在一起,执行直接的图像到Markdown转换,并支持广泛的提示驱动任务——从结构化文档解析和表格提取到图表理解、文档问答和关键信息提取——所有这些都在一个模型中。端到端OCR的一个实际限制是失去了显式布局分析,这是管道用户通常依赖的元素定位和类型分类功能。我们引入Layout-as-Thought来弥合这一差距:由思考标记触发的可选思考阶段,其中模型在产生最终输出之前生成结构化的布局表示(边界框、元素类型和阅读顺序)。这种机制有两个目的:(1)它在端到端范式中恢复布局分析功能,使用户能够直接获得空间接地结果;(2)它在布局复杂、元素杂乱或阅读顺序不标准的文档上提供有针对性的准确性改进,其中结构先验有助于解决识别歧义。在特定于OCR的基准测试中,千帆-OCR在OmniDocBench v1.5(93.12)和OlmOCR Bench(79.8)上的所有端到端模型中排名第一。它还在包括OCRBench(880)、OCRBenchv2和CCOCR在内的通用OCR基准测试以及DocVQA、ChartQA和Charxiv等文档理解任务上取得了强劲的成绩,匹配了可比规模的通用视觉语言模型。在公钥信息提取基准测试上,千帆-OCR取得了最高的平均得分,超过了双子座-3.1Pro、双子座3-Pro、种子-2.0和Qwen3-VL-235B-A22B。该模型可通过百度AI云千帆平台公开访问,使用示例和最佳实践可在https://github.com/baidubce/Qianfan-VL获得。

🛎️文章简介

🔸研究问题:如何在一个统一的端到端模型中同时实现高精度的文档解析、布局分析和语义理解,从而解决传统多阶段流水线存在的误差传播和视觉上下文丢失问题?
🔸主要贡献:论文提出了Qianfan-OCR,一个4B参数的端到端模型,通过引入"Layout-as-Thought"机制,在保持端到端优势的同时恢复了显式布局分析能力,并在多项基准测试中超越现有流水线系统及通用大模型。

📝重点思路

🔸采用统一的视觉-语言架构,集成布局分析、文本识别和语义理解,直接实现从图像到Markdown的转换,避免了多阶段系统的误差累积。
🔸提出"Layout-as-Thought"机制,通过触发特定token让模型在输出最终结果前先生成结构化的布局表示(边界框、元素类型、阅读顺序),以辅助复杂文档的推理。
🔸构建大规模合成数据流水线,涵盖文档解析、关键信息提取、复杂表格、图表理解及192种语言的多模态指令微调数据,特别强化了细粒度布局标签体系。
🔸实施四阶段渐进式训练策略,从跨模态对齐到基础OCR训练,再到领域增强和指令微调,并在领域专用训练中混合通用数据以防止过拟合。

🔎分析总结

🔸在OmniDocBench v1.5和OlmOCR Bench上,Qianfan-OCR在所有端到端模型中排名第一,性能甚至优于部分传统流水线系统。
🔸实验表明"Layout-as-Thought"机制在布局复杂度高(高熵)的文档中能显著提升准确率,而在简单文档中关闭该模式可获得更低延迟和更高分数。
🔸在需要空间推理的任务(如图表理解、学术文档问答)中,端到端模型远超“ OCR+LLM"两阶段流水线,后者因丢失视觉结构信息而在部分任务上得分为零。
🔸在关键信息提取任务上,该模型平均得分超越 Gemini-3.1-Pro及参数量大数十倍的Qwen3-VL变体,展现了极强的字段关联与抽取能力。
🔸通过W8A8量化,模型在单卡上的推理吞吐量可与高效流水线系统媲美,且部署架构更简单,避免了CPU成为瓶颈的问题。

💡个人观点

论文将传统的“布局检测”模块内化为大模型的“思维链”过程,赋予了模型处理复杂排版的空间推理能力。

🧩附录

http://www.jsqmd.com/news/534546/

相关文章:

  • 2026终端对决:OpenClaw VS Chaterm
  • HunyuanVideo-Foley部署案例:高校媒体实验室AI音效教学平台搭建
  • 2026买商标找哪家商标公司靠谱?实测出炉,甄标网断层领先 - 资讯焦点
  • 复调制频谱细化(Zoom-FFT)保姆级教程:从原理到MATLAB代码逐行解析
  • 4个核心步骤:飞桨PaddlePaddle深度学习框架从入门到环境部署
  • 不止于部署:在华为昇腾服务器上,如何用Docker和MindIE高效管理多个Qwen模型实例
  • 从战神到微服务:用Go-Kratos v2快速搭建你的第一个‘Hello World’服务
  • Wan2.2-I2V-A14B部署案例:中小企业低成本搭建私有AI视频生成平台
  • CLIP ViT-H/14模型架构深度解析:从20亿数据到零样本视觉语言理解
  • Qwen-Image-Edit入门必看:本地化部署+隐私保障+像素级编辑三合一详解
  • 模糊控制跟踪mppt: 采样电池电压,电流,根据模糊规则,跟踪控制达到最大功率点mppt,波形...
  • 跨平台虚拟机工具:解锁macOS系统的开源解决方案
  • 3大维度优化AI内存管理:让苹果芯片训练效率提升40%
  • 2026年浴室柜推荐:四大热门品牌横评,浴室柜怎么选 - 资讯焦点
  • Kimi K2大模型本地部署:如何在普通电脑上运行千亿参数AI助手
  • 即时通讯私有化数据能实现完全自主可控吗?
  • 小米智能家居 Home Assistant 集成指南:从安装到配置的零门槛实践
  • 如何用League Akari轻松提升英雄联盟游戏体验:完整指南
  • 嵌入式开发调试信息输出方法详解
  • CoPaw模型处理长文本摘要与报告生成效果对比分析
  • 5G WiFi频段为什么不能随便用?从信道限制看各国无线电安全政策差异
  • Python算法宝库:从机器学习到科学计算的完整实现指南
  • STM32景区智能服务系统设计与实现
  • 突破文本边界:SillyTavern多模态交互的创新实践
  • 当YOLO遇上FPGA:16路人脸检测的暴力美学
  • 从油电耦合逻辑到动力分配算法,Dmi混动系统的仿真总让人头秃。今天咱们直接扒开Simulink模型的外壳,看看这套正向开发框架怎么把混动车的灵魂装进代码里
  • R方小于0?别慌!手把手教你诊断线性回归模型的5个常见问题
  • 中小工厂协作机器人选择指南:为什么本地服务比机器本身更重要 - 短商
  • Timers轻量级定时器库:裸机嵌入式精准时间管理
  • 深入C6678启动流程:从BootRom参数表到多核镜像部署的完整解析