当前位置: 首页 > news >正文

上海人工智能实验室新论文:不换模型也能变强?MinerU2.5-Pro 把答案藏在样本里

论文PDF链接:https://arxiv.org/pdf/2604.04771

做过 RAG、知识库或者 OCR 项目的人,大概率都有类似体验:

模型能力看起来很强,但一碰到复杂 PDF 就开始出问题。

表格识别错位、公式丢失、跨页内容断裂、阅读顺序混乱……

很多时候你以为问题出在模型上,最后发现真正卡住系统的,往往是文档解析这一环。

于是正常思路一直都是:模型不够强,那就换更强的模型。

但 MinerU2.5-Pro 想回答的却是另一个问题:如果模型不换,仅靠数据和训练流程,还能挖出多少性能潜力?

这也是这篇论文最有意思的地方,它真正想回答的问题是如果模型架构基本不变,只靠数据工程和训练策略,还能不能继续把文档解析往上推?

这句话听起来有点技术味,但它背后其实是很多人都踩过的坑。你做 RAG,做知识库,做企业文档问答,第一步经常就是把 PDF 丢进去。看起来挺简单。PDF 里有字,模型需要字,那把字拿出来不就完了吗。

但真的做过就知道,麻烦从来不只是字。表格顺序乱了,公式断了,两栏论文被揉成一栏,图注和图片分家,跨页结构丢掉,页眉页脚混进正文。到头来模型回答得一本正经,但它读到的其实是一堆坏掉的结构。

这一下就很尴尬。

更尴尬的是,这不一定是某一个工具没做好。MinerU2.5-Pro 论文里最重要的入口之一,就是很多 SOTA 文档解析模型会在同一批复杂样本上出现相似失败。也就是说,难点可能不是「换一个模型就好了」。难点是这些样本本身没有被训练数据、标注流程和评测体系很好地处理。

复杂样本不是普通难题

很多时候我们说一个样本难,意思很模糊。比如扫描质量差,表格复杂,公式密集,版式奇怪。这个当然也叫难。但在 MinerU2.5-Pro 这篇论文里,复杂样本 更关键的地方在于,它们会让多个强模型一起不稳定。

这就变成了另一件事。如果只是一个模型错了,我们可以说它能力不够,或者这个架构不适合。如果一批不同模型都在同类样本上栽,那问题就不只是模型本身了。它可能说明训练数据没有覆盖这些长尾场景,样本难度没有被准确识别,自动标注在困难样本上不够可靠,甚至 基准测试 本身也没有把差距量出来。

这就是这一篇论文的反常规:MinerU2.5-Pro 并不是先宣布「我换了一个更大的模型」。相反,论文强调它保持 MinerU2.5 的 1.2B 参数架构不变,核心改进来自数据工程和训练策略。

这点很有意思。

在大模型叙事里,我们太习惯把进步归因于更大的参数、更长的上下文、更强的 backbone。但这篇论文提醒你,模型架构到了一定阶段以后,继续往上推,可能要回到一个更笨也更硬的地方:数据到底从哪里来、难样本到底怎么找、标注到底靠不靠谱。

Data Engine 的三个问题

论文把这套东西叫Data Engine「数据引擎」。这类词很容易变成包装词,听上去很完整,读完不知道做了什么。但 MinerU2.5-Pro 这说的比较清楚。它把问题拆成三个维度,coverage(覆盖范围)、informativeness(信息含量)、annotation accuracy(注释准确性)。翻成人话就是三件事:数据够不够广、样本有没有训练价值、标注靠不靠谱。

这三个问题看起来朴素,但它们刚好对应文档解析里最要命的矛盾。

  • 数据不够广,模型就见不到真实世界里那些怪版式、复杂表格、密集公式和长尾文档。

  • 样本没有训练价值,大量 简单样本 会占掉训练资源,看起来数据量很大,实际对能力边界没什么帮助。

  • 标注不靠谱,越难的样本越容易被错误伪标注污染,到头来模型学到的不是能力,而是噪声。

所以 Data Engine 不是简单把数据从低于 10M 扩到 65.5M。

扩数据只是第一步。真正关键的是,扩出来的数据能不能覆盖长尾,能不能把高价值样本挑出来,能不能把困难样本标得足够可靠。

三个缩写,其实是在做三件很朴素的事

论文里有三个核心组件,DDAS、CMCV、Judge-and-Refine。

  • DDAS 做的是采样(Diversity-and-Difficulty-Aware Sampling|多样性与难度感知采样)。它不只是从 PDF 池里随机捞样本,而是同时考虑多样性和难度。文档解析最怕的就是训练集看起来很大,但里面充满相似页面,模型在常规样本上很熟,一碰到长尾版式就掉线。DDAS 的价值,就是让数据覆盖更广,也让困难程度更有层次。

  • CMCV 做的是难度判断和一致性验证(Cross-Model Consistency Verification|跨模型一致性验证)。很简单,让多个异构模型去处理同一个样本,看它们的输出是否一致。如果几个模型都很一致,这个样本可能比较容易,或者伪标注更可信。如果模型之间分歧很大,这个样本就可能更难,也更有训练价值。

它不是让一个模型闭门造车地说「我觉得我不确定」。它是让不同模型之间互相照镜子。文本、公式、表格这些任务可以用不同指标去比较一致性,再把样本分成 简单、中等、复杂。

  • Judge-and-Refine 解决的是最麻烦的部分:复杂样本的标注质量。越有训练价值的样本,往往越难自动标对。这个悖论很真实。简单样本很好标,但模型早就会了。困难样本最该学,但也最容易被错误标注带偏。

所以论文用了render-then-verify(先渲染再验证)的思路。简单说,就是把生成的结构再渲染回去,和原始图像做比较,判断哪里错了,再定位错误原因并修正。剩下那些自动流程仍然不确定、但价值又高的样本,再交给专家标注。

你看,三件事连起来就成了一整套把训练数据从「越多越好」推进到「越有用越好」的流程:

先找到更广、更有难度层次的数据

再用多模型一致性判断哪些样本更有价值、哪些伪标注更可信

再把最难、最值得学的样本认真修掉。

数据终究要变成能力

讲到这里,大家会自然问一句:这些数据被找出来、分出来、修出来以后,模型到底怎么用?论文的回答是三阶段训练。

第一阶段,用大规模自动标注数据做预训练,目标是建立广覆盖的基础能力。这个阶段吃的是 Data Engine 产出的海量数据,规模从低于 10M 扩到 65.5M samples/pages 量级。它不是为了把每个复杂样本都处理到极致,而是先让模型见过足够多的文档形态。

第二阶段,用 192K 专家注释的 复杂样本 做高质量监督微调。这个阶段就开始补短板了。前面通过 CMCV 和 Judge-and-Refine 找出来、修出来的困难样本,在这里变成模型专门攻克能力边界的材料。

第三阶段,用 GRPO 去对齐任务级指标,比如 edit distance、CDM、TEDS 这些和文档解析结果直接相关的指标。这几个指标不需要都背,你只要抓住一个意思:训练不只是让模型输出看起来像答案,而是让它往文档解析真正关心的目标上靠,比如文本编辑距离、公式识别、表格结构。

这篇论文把数据质量分层、训练阶段和评测指标的一整套流程串起来了。广覆盖数据负责打底,专家注释的 复杂样本 负责补能力边界,GRPO 负责把模型往任务指标上推。这条链路一旦成立,Data Engine 就不是口号,而是训练系统的一部分。

分数要看,但别只看分数

当然,还是要看结果。

论文里最容易传播的数字,是 MinerU2.5-Pro 在 OmniDocBench v1.6 Full 上总分 95.69。对比 MinerU2.5 baseline 的 92.98,提升是 2.71。

但这篇论文更有价值的证据链,不是它第一,而是「每一步数据工程和训练策略都能在消融里看到贡献」。论文 Table 3 里,三阶段训练分别带来增益。Stage 1 提升 1.31,Stage 2 提升 0.96,Stage 3 提升 0.45。这个数字的意义在于,它不是某一个单点技巧突然起飞,而是从大规模数据、复杂样本 高质量微调,到 GRPO 指标对齐,每一步都在往上推。

Hard subset 也很关键。

论文给出的结果里,MinerU2.5-Pro 在 Hard subset 上是 94.08,GLM-OCR 和 PaddleOCR-VL-1.5 都是 92.01。这个差距刚好回扣了开头的问题,真正困难的样本,才是这套 Data Engine 最应该发挥作用的地方。

这里一定要守住边界。

95.69 不是所有真实业务 PDF 的万能保证。它说明的是,在论文设定的 基准测试、数据处理和评测协议下,MinerU2.5-Pro 这条数据工程路线确实带来了可测提升。你把它放到自己公司的合同扫描件、历史档案、低清财报、超长教材、混排票据里,还要看文档分布、扫描质量、部署成本、后处理流程,以及它怎么接进现有 RAG 管线。不把论文吹过头,反而更能看清它真正的价值。

基准测试也不是天然公平

还有一个地方,我觉得很值得单独说。MinerU2.5-Pro 论文不只是训练模型,它还讨论了 OmniDocBench v1.6。

这件事很容易被忽略。

很多人看模型论文,只看谁分数高。但基准测试 本身怎么设计,会直接影响我们看到的差距。论文里提到,OmniDocBench v1.5 存在元素匹配偏差。简单说,有些模型输出的语义可能接近,但因为元素切分粒度、格式约定、匹配方式不一样,分数会被系统性影响。所以 v1.6 做了评测协议上的修正,并加入 复杂子集。这也和全文主线连上了。

训练时要识别 复杂样本,评测时也要让 复杂样本 被看见。如果 Base 样本已经接近饱和,只看普通样本,模型差距会被压扁。真正能看出能力边界的,往往就是那些复杂、长尾、难标注的样本。

这也是为什么我说,这篇论文不只是一个文档解析模型论文。它更像是在说,文档解析这件事,已经进入了一个更系统的阶段。

不能只问模型会不会 OCR。你要问数据覆盖了什么,困难样本怎么被定义,伪标注怎么被验证,专家标注用在哪里,训练阶段怎么安排,基准测试 能不能真的量出差距。这一整套东西,才是 MinerU2.5-Pro 里最值得看的部分。

PDF 是数据入口,不是文件格式

回到最开始的问题。为什么复杂 PDF 到了大模型时代,反而更重要了?因为大模型吃进去的不是文件。它吃进去的是被整理过的数据。PDF 是人类知识最常见的载体之一。论文、教材、报告、合同、财报、标准文档、说明书,太多东西都躺在 PDF 里。过去我们看 PDF,是人自己读。现在我们想让模型读,让知识库读,让 RAG 读,让 agent 读。

那问题就变了。

不是 PDF 里有没有字。

是 PDF 能不能被转成模型真的能用的结构化内容。MinerU2.5-Pro 真正让我觉得值得写的地方,不是它又把分数刷高了,而是它把文档解析的改进路径往后推了一步。

不是只换模型。

不是只堆数据。

而是系统性地处理数据覆盖、困难样本、标注质量、训练阶段和评测边界。

当然,它也不是万能 PDF 方案。这篇论文证明的是,在 MinerU2.5 这类架构已经足够成熟的前提下,数据工程和训练策略还能继续带来明显增益。它没有证明所有企业文档场景都能一键解决,也没有替你解决部署、成本、后处理和业务适配。但它给了一个很重要的判断。AI 基础设施往后走,很多进步可能不会再以「模型突然变大」的形式出现。它会藏在更脏、更细、更不好讲的地方。

样本怎么来。难度怎么分。标注怎么修。评测怎么量。这些东西没有参数量那么有趣,但它们决定了模型到底能不能真的读懂复杂世界。

PDF 只是入口。

真正难的是,把入口后面那堆复杂、长尾、混乱、难标注的知识,变成可靠的训练信号。这才是 MinerU2.5-Pro 这篇论文最狠的地方。

感谢阅读。点个关注,不迷路,我们后续会持续跟进文档解析、OCR、多模态模型等前沿技术动态,第一时间为你解读。

http://www.jsqmd.com/news/1091296/

相关文章:

  • COM3D2 MaidFiddler实时编辑器:5分钟掌握终极女仆定制技巧
  • 好用的水下电机怎么挑?水下电机如何选——基于低压智能路线的工程化观察
  • 解决AI翻译模型部署复杂性的技术挑战:Sakura启动器GUI架构解析与实施指南
  • 成都买茶叶店铺推荐:新手如何根据口感与场景选茶
  • ppt模板_0126_彩色话框
  • 数据加密传输
  • 从理论到实践:基于混合整数二阶锥规划的主动配电网优化运行全流程解析与代码实现
  • 【openpyxl】从数据到洞察:用折线图动态呈现销售趋势
  • 我把那个迭代了 18 个版本的 SDK 整个掀翻重写了:stock-sdk v2 升级手记
  • 《计算机网络自顶向下》Wireshark实验:TCP连接与数据传输深度剖析
  • NukeSurvivalToolkit终极指南:292个专业插件如何让Nuke合成效率提升300%
  • 免费开源CPU优化神器CPUDoc:让你的电脑性能瞬间提升30%
  • Embedding向量一致性失效危机:当同一文本两次API调用余弦相似度<0.93——你必须在下次部署前验证的2个隐藏配置
  • Memtest86+:终极内存诊断工具,彻底解决电脑蓝屏死机问题
  • 语谱图(二)从频谱到声景:STFT的工程实践与调优解析
  • 第一章Netty,NIO阻塞和非阻塞模式,代码效果演示
  • Minecraft区块修复工具完全指南:拯救损坏的游戏世界
  • 前端可视化开发实战
  • Cursor免费试用限制深度解析:从设备指纹识别到一键重置的完整方案
  • Python QQ机器人开发实战:3步构建智能消息处理系统
  • MTK车机开机动画深度定制:从提取、解包到刷入的完整实战
  • macos支持的画质修复软件有哪些?5款Mac剪辑横评实测
  • Windows 11系统优化终极指南:使用Win11Debloat实现高效清理与性能提升
  • Gmail账号自动生成器:Python脚本快速创建随机邮箱的完整教程
  • 技术升级的路径规划与兼容性处理
  • 数据库系统中的事务处理查询优化与备份恢复
  • 如何用OpenModScan成为Modbus调试高手:终极免费解决方案
  • 5步轻松下载B站大会员4K视频:解锁离线观看新体验
  • Grok-4 Fast深度解析:98%推理降本背后的四层工程实践
  • 【紧急通知】ChatGPT Plus自动续费取消倒计时:OpenAI最新TOS第4.7条修订生效前最后48小时,教你锁定“永久免费额度+历史会话迁移”双权益