当前位置：首页 > news >正文

PositionOCR Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

news 2026/3/26 17:05:40

PositionOCR: Augmenting Positional Awareness in Multi-Modal Models via Hybrid Specialist Integration

Authors:Chen Duan, Zhentao Guo, Pei Fu, Zining Wang, Kai Zhou, Pengfei Yan

Deep-Dive Summary:

PositionOCR: 通过混合专家集成增强多模态模型的定位感知能力

摘要

近年来，多模态大语言模型（MLLMs）在以 OCR 为中心的视觉问答（VQA）任务中表现强劲，展现了处理异构数据和适应不同上下文的能力。然而，这些 MLLM 依赖大语言模型（LLM）作为解码器，而 LLM 主要为语言处理设计，固有地缺乏精确视觉任务（如文本检测和文本基准定位）所需的定位推理能力。此外，MLLM 庞大的参数量需要巨额计算资源和大规模数据进行训练。相比之下，文本检测专家模型能实现最先进的坐标预测，但缺乏语义推理能力。这引出了本文的核心研究问题：能否将专家模型的效率与 LLM 的上下文能力结合，创建一个定位准确的 MLLM？

为此，我们推出了PositionOCR，这是一种参数高效的混合架构，将文本检测模型的定位优势与 LLM 的上下文推理无缝集成。该框架仅包含 1.31 亿（131M）可训练参数，在文本基准定位（Text Grounding）和文本检测（Text Spotting）等任务中表现卓越，持续超越传统的 MLLM。

1. 引言

光学字符识别（OCR）是计算机视觉的关键技术。虽然 MLLM 通过强大的视觉骨干网络和模态连接器在 VQA 等任务上取得了突破，但仍面临两大局限：

定位推理能力不足：LLM 解码器更擅长语言处理而非精确的坐标预测。
资源消耗大：MLLM 参数庞大，而参数更少的专家模型在坐标预测和文本识别方面往往表现更好。

图 1：(a) 文本检测专家模型；(b) 主流 MLLM；© 本文提出的 PositionOCR，由 LLM 指导专家模型完成多模态任务。

PositionOCR 将 LLM 设计为中央处理单元，负责处理输入提示和视觉特征（见图 1c），无需对 LLM 进行训练即可实现卓越的定位推理。其训练分为两个阶段：

专家模型获取：开发一个专注于文本检测的图像到序列（image-to-sequence）模型，学习图像与序列之间的转换关系。
指令微调：通过连接器将专家模型与 LLM 对齐，并使用大量指令数据训练，使模型能理解并执行各种下游任务。

2. 相关工作

2.1 多模态大语言模型 (MLLMs)

介绍了如 Flamingo、BLIP2、Monkey 等通用 MLLM，以及专门针对 OCR 任务的模型如 TextMonkey、DocPedia 和 mPLUG-DocOwl1.5，后者通过提高分辨率和统一结构学习来增强性能。

2.2 基于序列的专家模型

如 Pix2seq 和 SPTS，它们将检测任务转化为序列生成。PositionOCR 结合了文本检测专家模型与 LLM 的理解能力，通过指令微调实现自然语言交互。

3. 方法

PositionOCR 是一个端到端的文档理解框架。

3.1 架构

图像编码器：采用 ResNet50 提取视觉特征。
大语言模型 (LLM)：使用 Qwen2.5-7B 作为核心，处理文本输入与视觉特征的嵌入向量。
解码器：采用自回归 Transformer。在文本检测中，每个实例表示为序列[ x , y , t , < s e p > ] [x, y, t, <sep>][x,y,t,<sep>]，其中( x , y ) (x, y)(x,y)是中心点坐标（离散化为 1-1000 的整数），t tt是识别的文本。

下一步预测的概率计算公式为：
P ( y t ∣ y 1 : t − 1 , H v ) = S o f t m a x ( W d h t ) ( 1 ) P(\mathbf{y}_{t}|\mathbf{y}_{1:t - 1},\mathbf{H}_{v}) = \mathrm{Softmax}(\mathbf{W}_{d}\mathbf{h}_{t}) \quad (1)P(yt∣y1:t−1,Hv)=Softmax(Wdht)(1)

其中y t \mathbf{y}_tyt是当前预测的 token，H v \mathbf{H}_vHv是编码的视觉信息。

3.2 训练策略

专家模型阶段：利用文本检测数据训练图像到序列的能力，随后引入 LLM 进行联合训练，使其能够响应如“识别图像中所有文本并提供坐标”的提示。
指令微调阶段：使用多领域指令数据训练，使模型具备多模态理解能力，并能根据指令输出位置坐标。

3.3 损失函数

使用标准的交叉熵损失函数：
L s e q = m a x i m i z e ∑ i = 1 L w i log ⁡ P ( s ~ i ∣ I , s 1 : i ) ( 2 ) \mathcal{L}_{s e q} = \mathrm{maximize}\sum_{i = 1}^{L}w_{i}\log P(\tilde{s}_{i}|I,s_{1:i}) \quad (2)Lseq=maximizei=1∑LwilogP(s~i∣I,s1:i)(2)

4. 实验

4.1 数据集

训练数据涵盖了文本检测（2.1M 数据，包括 IIT-CDIP、COCO 等）和指令微调（12.6M 数据，包括 DocVQA、TextVQA、RefCOCO 等）。

4.2 实验结果分析

文本基准定位 (Text Grounding)

在 DocLocal4K 数据集上，PositionOCR 达到了83.0 % 83.0\%83.0%的精度。特别是在“词（Word）”级别，性能显著优于其他模型（比 DOGE 高出9.3 % 9.3\%9.3%），证明了其在细粒度感知上的优势。

图 3：PositionOCR 在不同粒度（词、短语、行、块）下的可视化结果。

文本检测 (Text Spotting)

在 Total-Text 和 ICDAR2015 数据集上，PositionOCR 虽然是轻量级模型，但性能优于参数量更大的 TextMonkey（如在 ICDAR2015 上提升了22.6 % 22.6\%22.6%）。

文档基准测试 (Document Benchmarks)

在 DocVQA、POIE 等多个文档理解测试中，PositionOCR 表现出色。在 DocVQA 上达到69.8 % 69.8\%69.8%，在 POIE 数据集上取得了 SOTA（最先进）性能，超越了许多参数量更大的模型。

跨任务泛化分析

模型也展现了目标基准定位（Object Grounding）的能力。尽管仅使用了 334k 样本进行预训练，在 RefCOCO 等数据集上依然表现出了极强的竞争力。

5. 局限性

受限于训练资源，PositionOCR 在预训练数据规模（2.1M 图像）和任务多样性上与顶级模型（如 Qwen2.5-VL）相比仍有差距。未来将通过引入更广泛的数据集来增强泛化能力。

6. 结论

PositionOCR 通过将文本检测专家模型与 LLM 的推理能力相结合，利用仅 131M 的可训练参数，在定位感知任务中展现了卓越的性能。该研究证明了专家模型在增强多模态场景中的重要作用，并为提升模型效率提供了新视角。

Original Abstract:In recent years, Multi-modal Large Language Models (MLLMs) have achieved strong performance in OCR-centric Visual Question Answering (VQA) tasks, illustrating their capability to process heterogeneous data and exhibit adaptability across varied contexts. However, these MLLMs rely on a Large Language Model (LLM) as the decoder, which is primarily designed for linguistic processing, and thus inherently lacks the positional reasoning required for precise visual tasks, such as text spotting and text grounding. Additionally, the extensive parameters of MLLMs necessitate substantial computational resources and large-scale data for effective training. Conversely, text spotting specialists achieve state-of-the-art coordinate predictions but lack semantic reasoning capabilities. This dichotomy motivates our key research question: Can we synergize the efficiency of specialists with the contextual power of LLMs to create a positionally-accurate MLLM? To overcome these challenges, we introduce PositionOCR, a parameter-efficient hybrid architecture that seamlessly integrates a text spotting model’s positional strengths with an LLM’s contextual reasoning. Comprising 131M trainable parameters, this framework demonstrates outstanding multi-modal processing capabilities, particularly excelling in tasks such as text grounding and text spotting, consistently surpassing traditional MLLMs.

PDF Link:2602.19188v1