当前位置：首页 > news >正文

上海人工智能实验室新论文：不换模型也能变强？MinerU2.5-Pro 把答案藏在样本里

news 2026/6/29 19:21:08

论文PDF链接：https://arxiv.org/pdf/2604.04771

做过 RAG、知识库或者 OCR 项目的人，大概率都有类似体验：

模型能力看起来很强，但一碰到复杂 PDF 就开始出问题。

表格识别错位、公式丢失、跨页内容断裂、阅读顺序混乱……

很多时候你以为问题出在模型上，最后发现真正卡住系统的，往往是文档解析这一环。

于是正常思路一直都是：模型不够强，那就换更强的模型。

但 MinerU2.5-Pro 想回答的却是另一个问题：如果模型不换，仅靠数据和训练流程，还能挖出多少性能潜力？

这也是这篇论文最有意思的地方，它真正想回答的问题是如果模型架构基本不变，只靠数据工程和训练策略，还能不能继续把文档解析往上推？

这句话听起来有点技术味，但它背后其实是很多人都踩过的坑。你做 RAG，做知识库，做企业文档问答，第一步经常就是把 PDF 丢进去。看起来挺简单。PDF 里有字，模型需要字，那把字拿出来不就完了吗。

但真的做过就知道，麻烦从来不只是字。表格顺序乱了，公式断了，两栏论文被揉成一栏，图注和图片分家，跨页结构丢掉，页眉页脚混进正文。到头来模型回答得一本正经，但它读到的其实是一堆坏掉的结构。

这一下就很尴尬。

更尴尬的是，这不一定是某一个工具没做好。MinerU2.5-Pro 论文里最重要的入口之一，就是很多 SOTA 文档解析模型会在同一批复杂样本上出现相似失败。也就是说，难点可能不是「换一个模型就好了」。难点是这些样本本身没有被训练数据、标注流程和评测体系很好地处理。

复杂样本不是普通难题

很多时候我们说一个样本难，意思很模糊。比如扫描质量差，表格复杂，公式密集，版式奇怪。这个当然也叫难。但在 MinerU2.5-Pro 这篇论文里，复杂样本更关键的地方在于，它们会让多个强模型一起不稳定。

这就变成了另一件事。如果只是一个模型错了，我们可以说它能力不够，或者这个架构不适合。如果一批不同模型都在同类样本上栽，那问题就不只是模型本身了。它可能说明训练数据没有覆盖这些长尾场景，样本难度没有被准确识别，自动标注在困难样本上不够可靠，甚至基准测试本身也没有把差距量出来。

这就是这一篇论文的反常规：MinerU2.5-Pro 并不是先宣布「我换了一个更大的模型」。相反，论文强调它保持 MinerU2.5 的 1.2B 参数架构不变，核心改进来自数据工程和训练策略。

这点很有意思。

在大模型叙事里，我们太习惯把进步归因于更大的参数、更长的上下文、更强的 backbone。但这篇论文提醒你，模型架构到了一定阶段以后，继续往上推，可能要回到一个更笨也更硬的地方：数据到底从哪里来、难样本到底怎么找、标注到底靠不靠谱。

Data Engine 的三个问题

论文把这套东西叫Data Engine「数据引擎」。这类词很容易变成包装词，听上去很完整，读完不知道做了什么。但 MinerU2.5-Pro 这说的比较清楚。它把问题拆成三个维度，coverage（覆盖范围）、informativeness（信息含量）、annotation accuracy（注释准确性）。翻成人话就是三件事：数据够不够广、样本有没有训练价值、标注靠不靠谱。

这三个问题看起来朴素，但它们刚好对应文档解析里最要命的矛盾。

数据不够广，模型就见不到真实世界里那些怪版式、复杂表格、密集公式和长尾文档。

样本没有训练价值，大量简单样本会占掉训练资源，看起来数据量很大，实际对能力边界没什么帮助。

标注不靠谱，越难的样本越容易被错误伪标注污染，到头来模型学到的不是能力，而是噪声。

所以 Data Engine 不是简单把数据从低于 10M 扩到 65.5M。

扩数据只是第一步。真正关键的是，扩出来的数据能不能覆盖长尾，能不能把高价值样本挑出来，能不能把困难样本标得足够可靠。

三个缩写，其实是在做三件很朴素的事

论文里有三个核心组件，DDAS、CMCV、Judge-and-Refine。

DDAS 做的是采样(Diversity-and-Difficulty-Aware Sampling|多样性与难度感知采样)。它不只是从 PDF 池里随机捞样本，而是同时考虑多样性和难度。文档解析最怕的就是训练集看起来很大，但里面充满相似页面，模型在常规样本上很熟，一碰到长尾版式就掉线。DDAS 的价值，就是让数据覆盖更广，也让困难程度更有层次。

CMCV 做的是难度判断和一致性验证(Cross-Model Consistency Verification|跨模型一致性验证)。很简单，让多个异构模型去处理同一个样本，看它们的输出是否一致。如果几个模型都很一致，这个样本可能比较容易，或者伪标注更可信。如果模型之间分歧很大，这个样本就可能更难，也更有训练价值。

它不是让一个模型闭门造车地说「我觉得我不确定」。它是让不同模型之间互相照镜子。文本、公式、表格这些任务可以用不同指标去比较一致性，再把样本分成简单、中等、复杂。

Judge-and-Refine 解决的是最麻烦的部分：复杂样本的标注质量。越有训练价值的样本，往往越难自动标对。这个悖论很真实。简单样本很好标，但模型早就会了。困难样本最该学，但也最容易被错误标注带偏。

所以论文用了render-then-verify（先渲染再验证）的思路。简单说，就是把生成的结构再渲染回去，和原始图像做比较，判断哪里错了，再定位错误原因并修正。剩下那些自动流程仍然不确定、但价值又高的样本，再交给专家标注。

你看，三件事连起来就成了一整套把训练数据从「越多越好」推进到「越有用越好」的流程：

先找到更广、更有难度层次的数据

再用多模型一致性判断哪些样本更有价值、哪些伪标注更可信

再把最难、最值得学的样本认真修掉。

数据终究要变成能力

讲到这里，大家会自然问一句：这些数据被找出来、分出来、修出来以后，模型到底怎么用？论文的回答是三阶段训练。

第一阶段，用大规模自动标注数据做预训练，目标是建立广覆盖的基础能力。这个阶段吃的是 Data Engine 产出的海量数据，规模从低于 10M 扩到 65.5M samples/pages 量级。它不是为了把每个复杂样本都处理到极致，而是先让模型见过足够多的文档形态。

第二阶段，用 192K 专家注释的复杂样本做高质量监督微调。这个阶段就开始补短板了。前面通过 CMCV 和 Judge-and-Refine 找出来、修出来的困难样本，在这里变成模型专门攻克能力边界的材料。

第三阶段，用 GRPO 去对齐任务级指标，比如 edit distance、CDM、TEDS 这些和文档解析结果直接相关的指标。这几个指标不需要都背，你只要抓住一个意思：训练不只是让模型输出看起来像答案，而是让它往文档解析真正关心的目标上靠，比如文本编辑距离、公式识别、表格结构。

这篇论文把数据质量分层、训练阶段和评测指标的一整套流程串起来了。广覆盖数据负责打底，专家注释的复杂样本负责补能力边界，GRPO 负责把模型往任务指标上推。这条链路一旦成立，Data Engine 就不是口号，而是训练系统的一部分。

分数要看，但别只看分数

当然，还是要看结果。

论文里最容易传播的数字，是 MinerU2.5-Pro 在 OmniDocBench v1.6 Full 上总分 95.69。对比 MinerU2.5 baseline 的 92.98，提升是 2.71。

但这篇论文更有价值的证据链，不是它第一，而是「每一步数据工程和训练策略都能在消融里看到贡献」。论文 Table 3 里，三阶段训练分别带来增益。Stage 1 提升 1.31，Stage 2 提升 0.96，Stage 3 提升 0.45。这个数字的意义在于，它不是某一个单点技巧突然起飞，而是从大规模数据、复杂样本高质量微调，到 GRPO 指标对齐，每一步都在往上推。

Hard subset 也很关键。

论文给出的结果里，MinerU2.5-Pro 在 Hard subset 上是 94.08，GLM-OCR 和 PaddleOCR-VL-1.5 都是 92.01。这个差距刚好回扣了开头的问题，真正困难的样本，才是这套 Data Engine 最应该发挥作用的地方。

这里一定要守住边界。

95.69 不是所有真实业务 PDF 的万能保证。它说明的是，在论文设定的基准测试、数据处理和评测协议下，MinerU2.5-Pro 这条数据工程路线确实带来了可测提升。你把它放到自己公司的合同扫描件、历史档案、低清财报、超长教材、混排票据里，还要看文档分布、扫描质量、部署成本、后处理流程，以及它怎么接进现有 RAG 管线。不把论文吹过头，反而更能看清它真正的价值。

基准测试也不是天然公平

还有一个地方，我觉得很值得单独说。MinerU2.5-Pro 论文不只是训练模型，它还讨论了 OmniDocBench v1.6。

这件事很容易被忽略。

很多人看模型论文，只看谁分数高。但基准测试本身怎么设计，会直接影响我们看到的差距。论文里提到，OmniDocBench v1.5 存在元素匹配偏差。简单说，有些模型输出的语义可能接近，但因为元素切分粒度、格式约定、匹配方式不一样，分数会被系统性影响。所以 v1.6 做了评测协议上的修正，并加入复杂子集。这也和全文主线连上了。

训练时要识别复杂样本，评测时也要让复杂样本被看见。如果 Base 样本已经接近饱和，只看普通样本，模型差距会被压扁。真正能看出能力边界的，往往就是那些复杂、长尾、难标注的样本。

这也是为什么我说，这篇论文不只是一个文档解析模型论文。它更像是在说，文档解析这件事，已经进入了一个更系统的阶段。

不能只问模型会不会 OCR。你要问数据覆盖了什么，困难样本怎么被定义，伪标注怎么被验证，专家标注用在哪里，训练阶段怎么安排，基准测试能不能真的量出差距。这一整套东西，才是 MinerU2.5-Pro 里最值得看的部分。

PDF 是数据入口，不是文件格式

回到最开始的问题。为什么复杂 PDF 到了大模型时代，反而更重要了？因为大模型吃进去的不是文件。它吃进去的是被整理过的数据。PDF 是人类知识最常见的载体之一。论文、教材、报告、合同、财报、标准文档、说明书，太多东西都躺在 PDF 里。过去我们看 PDF，是人自己读。现在我们想让模型读，让知识库读，让 RAG 读，让 agent 读。

那问题就变了。

不是 PDF 里有没有字。

是 PDF 能不能被转成模型真的能用的结构化内容。MinerU2.5-Pro 真正让我觉得值得写的地方，不是它又把分数刷高了，而是它把文档解析的改进路径往后推了一步。

不是只换模型。

不是只堆数据。

而是系统性地处理数据覆盖、困难样本、标注质量、训练阶段和评测边界。

当然，它也不是万能 PDF 方案。这篇论文证明的是，在 MinerU2.5 这类架构已经足够成熟的前提下，数据工程和训练策略还能继续带来明显增益。它没有证明所有企业文档场景都能一键解决，也没有替你解决部署、成本、后处理和业务适配。但它给了一个很重要的判断。AI 基础设施往后走，很多进步可能不会再以「模型突然变大」的形式出现。它会藏在更脏、更细、更不好讲的地方。

样本怎么来。难度怎么分。标注怎么修。评测怎么量。这些东西没有参数量那么有趣，但它们决定了模型到底能不能真的读懂复杂世界。

PDF 只是入口。

真正难的是，把入口后面那堆复杂、长尾、混乱、难标注的知识，变成可靠的训练信号。这才是 MinerU2.5-Pro 这篇论文最狠的地方。

感谢阅读。点个关注，不迷路，我们后续会持续跟进文档解析、OCR、多模态模型等前沿技术动态，第一时间为你解读。

查看全文

http://www.jsqmd.com/news/1091296/