当前位置: 首页 > news >正文

PositionOCR Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

Authors:Chen Duan, Zhentao Guo, Pei Fu, Zining Wang, Kai Zhou, Pengfei Yan

Deep-Dive Summary:

PositionOCR: 通过混合专家集成增强多模态模型的定位感知能力

摘要

近年来,多模态大语言模型(MLLMs)在以 OCR 为中心的视觉问答(VQA)任务中表现强劲,展现了处理异构数据和适应不同上下文的能力。然而,这些 MLLM 依赖大语言模型(LLM)作为解码器,而 LLM 主要为语言处理设计,固有地缺乏精确视觉任务(如文本检测和文本基准定位)所需的定位推理能力。此外,MLLM 庞大的参数量需要巨额计算资源和大规模数据进行训练。相比之下,文本检测专家模型能实现最先进的坐标预测,但缺乏语义推理能力。这引出了本文的核心研究问题:能否将专家模型的效率与 LLM 的上下文能力结合,创建一个定位准确的 MLLM?

为此,我们推出了PositionOCR,这是一种参数高效的混合架构,将文本检测模型的定位优势与 LLM 的上下文推理无缝集成。该框架仅包含 1.31 亿(131M)可训练参数,在文本基准定位(Text Grounding)和文本检测(Text Spotting)等任务中表现卓越,持续超越传统的 MLLM。

1. 引言

光学字符识别(OCR)是计算机视觉的关键技术。虽然 MLLM 通过强大的视觉骨干网络和模态连接器在 VQA 等任务上取得了突破,但仍面临两大局限:

  1. 定位推理能力不足:LLM 解码器更擅长语言处理而非精确的坐标预测。
  2. 资源消耗大:MLLM 参数庞大,而参数更少的专家模型在坐标预测和文本识别方面往往表现更好。

图 1:(a) 文本检测专家模型;(b) 主流 MLLM;© 本文提出的 PositionOCR,由 LLM 指导专家模型完成多模态任务。

PositionOCR 将 LLM 设计为中央处理单元,负责处理输入提示和视觉特征(见图 1c),无需对 LLM 进行训练即可实现卓越的定位推理。其训练分为两个阶段:

  1. 专家模型获取:开发一个专注于文本检测的图像到序列(image-to-sequence)模型,学习图像与序列之间的转换关系。
  2. 指令微调:通过连接器将专家模型与 LLM 对齐,并使用大量指令数据训练,使模型能理解并执行各种下游任务。

2. 相关工作

2.1 多模态大语言模型 (MLLMs)

介绍了如 Flamingo、BLIP2、Monkey 等通用 MLLM,以及专门针对 OCR 任务的模型如 TextMonkey、DocPedia 和 mPLUG-DocOwl1.5,后者通过提高分辨率和统一结构学习来增强性能。

2.2 基于序列的专家模型

如 Pix2seq 和 SPTS,它们将检测任务转化为序列生成。PositionOCR 结合了文本检测专家模型与 LLM 的理解能力,通过指令微调实现自然语言交互。

3. 方法

PositionOCR 是一个端到端的文档理解框架。

3.1 架构

  • 图像编码器:采用 ResNet50 提取视觉特征。
  • 大语言模型 (LLM):使用 Qwen2.5-7B 作为核心,处理文本输入与视觉特征的嵌入向量。
  • 解码器:采用自回归 Transformer。在文本检测中,每个实例表示为序列[ x , y , t , < s e p > ] [x, y, t, <sep>][x,y,t,<sep>],其中( x , y ) (x, y)(x,y)是中心点坐标(离散化为 1-1000 的整数),t tt是识别的文本。

下一步预测的概率计算公式为:
P ( y t ∣ y 1 : t − 1 , H v ) = S o f t m a x ( W d h t ) ( 1 ) P(\mathbf{y}_{t}|\mathbf{y}_{1:t - 1},\mathbf{H}_{v}) = \mathrm{Softmax}(\mathbf{W}_{d}\mathbf{h}_{t}) \quad (1)P(yty1:t1,Hv)=Softmax(Wdht)(1)

其中y t \mathbf{y}_tyt是当前预测的 token,H v \mathbf{H}_vHv是编码的视觉信息。

3.2 训练策略

  • 专家模型阶段:利用文本检测数据训练图像到序列的能力,随后引入 LLM 进行联合训练,使其能够响应如“识别图像中所有文本并提供坐标”的提示。
  • 指令微调阶段:使用多领域指令数据训练,使模型具备多模态理解能力,并能根据指令输出位置坐标。

3.3 损失函数

使用标准的交叉熵损失函数:
L s e q = m a x i m i z e ∑ i = 1 L w i log ⁡ P ( s ~ i ∣ I , s 1 : i ) ( 2 ) \mathcal{L}_{s e q} = \mathrm{maximize}\sum_{i = 1}^{L}w_{i}\log P(\tilde{s}_{i}|I,s_{1:i}) \quad (2)Lseq=maximizei=1LwilogP(s~iI,s1:i)(2)

4. 实验

4.1 数据集

训练数据涵盖了文本检测(2.1M 数据,包括 IIT-CDIP、COCO 等)和指令微调(12.6M 数据,包括 DocVQA、TextVQA、RefCOCO 等)。

4.2 实验结果分析

文本基准定位 (Text Grounding)

在 DocLocal4K 数据集上,PositionOCR 达到了83.0 % 83.0\%83.0%的精度。特别是在“词(Word)”级别,性能显著优于其他模型(比 DOGE 高出9.3 % 9.3\%9.3%),证明了其在细粒度感知上的优势。


图 3:PositionOCR 在不同粒度(词、短语、行、块)下的可视化结果。

文本检测 (Text Spotting)

在 Total-Text 和 ICDAR2015 数据集上,PositionOCR 虽然是轻量级模型,但性能优于参数量更大的 TextMonkey(如在 ICDAR2015 上提升了22.6 % 22.6\%22.6%)。

文档基准测试 (Document Benchmarks)

在 DocVQA、POIE 等多个文档理解测试中,PositionOCR 表现出色。在 DocVQA 上达到69.8 % 69.8\%69.8%,在 POIE 数据集上取得了 SOTA(最先进)性能,超越了许多参数量更大的模型。

跨任务泛化分析

模型也展现了目标基准定位(Object Grounding)的能力。尽管仅使用了 334k 样本进行预训练,在 RefCOCO 等数据集上依然表现出了极强的竞争力。

5. 局限性

受限于训练资源,PositionOCR 在预训练数据规模(2.1M 图像)和任务多样性上与顶级模型(如 Qwen2.5-VL)相比仍有差距。未来将通过引入更广泛的数据集来增强泛化能力。

6. 结论

PositionOCR 通过将文本检测专家模型与 LLM 的推理能力相结合,利用仅 131M 的可训练参数,在定位感知任务中展现了卓越的性能。该研究证明了专家模型在增强多模态场景中的重要作用,并为提升模型效率提供了新视角。

Original Abstract:In recent years, Multi-modal Large Language Models (MLLMs) have achieved strong performance in OCR-centric Visual Question Answering (VQA) tasks, illustrating their capability to process heterogeneous data and exhibit adaptability across varied contexts. However, these MLLMs rely on a Large Language Model (LLM) as the decoder, which is primarily designed for linguistic processing, and thus inherently lacks the positional reasoning required for precise visual tasks, such as text spotting and text grounding. Additionally, the extensive parameters of MLLMs necessitate substantial computational resources and large-scale data for effective training. Conversely, text spotting specialists achieve state-of-the-art coordinate predictions but lack semantic reasoning capabilities. This dichotomy motivates our key research question: Can we synergize the efficiency of specialists with the contextual power of LLMs to create a positionally-accurate MLLM? To overcome these challenges, we introduce PositionOCR, a parameter-efficient hybrid architecture that seamlessly integrates a text spotting model’s positional strengths with an LLM’s contextual reasoning. Comprising 131M trainable parameters, this framework demonstrates outstanding multi-modal processing capabilities, particularly excelling in tasks such as text grounding and text spotting, consistently surpassing traditional MLLMs.

PDF Link:2602.19188v1

部分平台可能图片显示异常,请以我的博客内容为准

http://www.jsqmd.com/news/409086/

相关文章:

  • 小国的网站生态 和 不要被域名注册时间骗了
  • 【无人机】无人机辅助无线数据采集分析工具包附matlab代码
  • 虚拟激活脚本示例
  • 前缀和优化 DP
  • MICON-Bench Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Mo
  • DeepSeek广告服务商联系方式 - 品牌2025
  • 2026年广州江诗丹顿手表维修评测与推荐:非官方维修点选择与售后网点服务指南 - 十大品牌推荐
  • 2026年广州江诗丹顿手表维修推荐评测:非官方维修点榜单与售后网点服务选择指南 - 十大品牌推荐
  • AI人工智能(十六)错误示范http文件处理—东方仙盟练气期
  • 2026年广州家庭搬家公司推荐评测排行榜:告别搬家烦恼,轻松开启新生活 - 十大品牌推荐
  • 2026年广州家庭搬家公司评测推荐榜单:告别杂乱与纠纷,轻松搬迁全攻略 - 十大品牌推荐
  • 2026年广州家具搬运公司推荐评测榜单:告别杂乱与破损,专业团队让搬迁无忧 - 十大品牌推荐
  • 2026年广州家庭搬家公司评测推荐榜单:告别杂乱与焦虑,轻松搬迁新家指南 - 十大品牌推荐
  • 在DeepSeek做广告联系哪个服务商? - 品牌2025
  • 2026 2.23 - 2026 3.1 日做题题解
  • 宽度学习旋转机械智能故障诊断【附代码】
  • DeepSeek广告服务商?联系谁? - 品牌2025
  • 欧姆龙PLC CP1E与柯力XK3101电子称重仪表的Modbus RTU通信及拓展
  • 深沟球轴承外滚道偏转缺陷建模与动力学分析【附代码】
  • 从单一到融合:机器学习、多模型学习与大语言模型的全面综述
  • 2026年2月24日
  • MySQL从入门到精通:一份全面的数据库实战指南
  • 春节单位发的京东e卡如何回收? - 京顺回收
  • 上海人工智能实验室重磅发布:AI正在学会“偷鸡摸狗“?
  • n8n 节点矩阵总览(分层结构 + 云图 + 教程索引)
  • 波士顿大学与亚马逊联手:让AI画图速度飞跃3倍的智能补丁技术
  • 公共安全能力建设专项技术方案——城市公共空间实时预测与前向布控辅助决策系统
  • 2026最新云南本地游旅行社品牌TOP10推荐:权威榜单发布,多元需求精准适配 - 十大品牌榜
  • QPACK、单向流、帧解析:逐行拆解Nginx HTTP/3的13个源文件,看HTTP/3请求到底怎么跑起来的
  • 20260224 模拟测 总结