当前位置: 首页 > news >正文

FireRed-OCR多模态文档解析新突破:2B模型实现长尾版式精准解析!

小红书开源了基于qwen3-vl-2B微调的FireRed-OCR模型,采用“几何+语义”数据工厂和三阶段训练方法,针对长尾版式文档解析问题。阶段1使用多任务预对齐粗标注数据,阶段2用精标注数据提升精度和结构一致性,阶段3通过RL强制约束优化输出格式。实验结果显示,FireRed-OCR在复杂文档解析上表现优异,为文档智能领域提供了新的解决方案。


继续跟进【[文档智能]】解析进展,小红书今天又开源了一个多模态文档解析模型:基于qwen3-vl-2B参数微调训练的参数量的FireRed-OCR,与paddleocr-vl等不同的是Layout阶段采用的也是2b的模型(整体方式与mineru2.5相似)。下面来看看整体的方法。

方法

数据方法:"几何 + 语义"数据工厂:用几何特征聚类和多维度标注,合成均衡的训练数据集,专门针对长尾版式(比如奇特的多栏、嵌套表格)做数据增强,解决了真实世界文档分布不均衡的问题。

训练分三个阶段:阶段 1(预对齐)用粗标注数据(低成本、大规模)打基础,阶段 2(SFT)用精标注数据(高成本、中规模)提高精度,阶段 3(GRPO)用约束校验数据(无标注、轻量化)增强处理逻辑,如下:

训练方法

阶段1:多任务预对齐

包含三个互补子任务,采用异质数据集 ,联合训练:

  1. 检测与OCR():输入文档图像,模型需同时输出文本的边界框坐标()和对应识别文本()。
  2. 区域OCR():输入图像局部裁剪区域或坐标提示(如“识别图像左上角100×100像素区域的文本”),模型输出该区域内的文本内容。该任务提升模型对局部高分辨率文本的敏感程度,解决密集文本区域的识别模糊问题。
  3. 全页Markdown转换(初始版):简单的布局直接生成Markdown格式。

交叉熵损失函数:

这一阶段识别文本内容和位置,初步理解简单布局,但结构输出缺乏一致性和规范性(如表格列数混乱、标题层级错乱)。

阶段2:SFT

基于 curated 高质量数据集 (400k 文档-Markdown 对齐对)训练:

  1. 结构一致性:确保长文本生成中逻辑连贯,例如长文档的章节层级不中断、多页表格的列数保持一致,避免“碎片化输出”。
  2. 层级表达稳定性:严格区分语义层级,例如 Markdown 中“# 一级标题”“## 二级标题”的嵌套关系、有序列表与无序列表的区分,还原原始文档的视觉层级。
  3. Markdown 格式标准化:统一格式表达规范,例如公式用 LaTeX、表格用标准 Markdown、加粗/斜体的符号使用一致。
  4. 跨语言与复杂布局:主要考虑训练数据的多样性(多语言文本等)、复杂几何布局(多列学术论文、图文混合文档、扭曲扫描件)。

其他细节:阶段1使用较粗标注(PaddleOCR-VL v1)训练通用能力,阶段2切换为精细标注(PaddleOCR-VL v1.5)优化细节。

阶段3:GRPO格式约束优化

通过RL强制约束输出结构语法,解决如未闭合的标签、无法编译的公式。

  1. 组生成模块:对每个输入(图像-指令对),模型通过采样生成 G 个输出(),形成候选输出组。

  2. 复合奖励函数设计():通过四部分加权奖励引导模型生成“结构合规+内容准确”的结果,权重 经实验优化确定:

  • 公式语法奖励():用轻量级 LaTeX 解析器验证公式合法性,无法编译或含非法符号则得 -1 分,合法公式按复杂度给予正分。
  • 层级闭合奖励():检查 Markdown/HTML 类标签的闭合情况(如 ** 加粗符号、table 表格标签),未闭合节点数量与惩罚正相关。
  • 表格完整性奖励():验证表格列数是否全局一致,结构为矩形且无缺失行/列得 1 分,否则得 0 分(表格是 OCR 中最易出错的结构)。
  • 文本准确性奖励():计算生成文本与 SFT 阶段伪真值的归一化负编辑距离(Levenshtein Distance)。

实验结果

如何系统的学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一直在更新,更多的大模型学习和面试资料已经上传带到CSDN的官方了,有需要的朋友可以扫描下方二维码免费领取【保证100%免费】👇👇

01.大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

02.大模型 AI 学习和面试资料

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)





第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

http://www.jsqmd.com/news/436575/

相关文章:

  • GO富集分析原理
  • 实现抽奖转盘(简易版)
  • 去掉豆包文本星号 - DS随心转小程序
  • 2026年3月四川西嘉助听器厂家推荐榜,彰显高端助听技术实力 - 品牌鉴赏师
  • 编程效率提升10倍,我只用了一周时间
  • AI产品经理:年薪百万不是梦!144%岗位涨幅,高薪风口等你来抢!
  • 深度测评!自考论文神器 —— 千笔·专业学术智能体
  • 网安学习笔记(一)
  • 吐血推荐!千笔ai写作,本科生论文救星
  • 深度测评 9个AI论文写作软件:专科生毕业论文+开题报告高效写作指南
  • 主治医师考试党必备!这几款APP让你开挂 - 品牌测评鉴赏家
  • 医考必看!揭秘主治医师考试培训机构TOP3 - 品牌测评鉴赏家
  • 使用nohup指令长期训练模型
  • .NET 高性能场景下的不同选择:OpenTK / Compute Shader / SIMD / CPU多线程 - 行人-
  • 解锁主治医师考试刷题软件,开启医考通关秘籍 - 品牌测评鉴赏家
  • Android平台基于 SmartMediaKit 的低延迟RTMP直播推送技术实践
  • Android手机云控系统框架源码解析
  • 2026主治医师考试培训机构推荐榜,在职医考必看! - 品牌测评鉴赏家
  • 基于 SmartMediaKit 的Android平台RTSP/RTMP低延迟直播播放模块技术实践
  • 2026年耐磨钢球厂家实力推荐榜:高铬/中铬/低铬合金钢球与球磨机专用钢球源头企业深度解析 - 品牌企业推荐师(官方)
  • 如何设计DP状态
  • Android RTSP/RTMP 低延迟播放器如何做到工程级?SmartPlayer 架构与实现详解
  • 是否有序对解法的影响(?)
  • 医学考研圈里那些口碑炸裂的机构,你知道几家? - 品牌测评鉴赏家
  • 2026医学考研课程榜出炉!精准避坑,上岸快人一步 - 品牌测评鉴赏家
  • 主治医师考试资料哪家好?2026实测推荐,在职考生直接抄作业 - 品牌测评鉴赏家
  • 2026医考必备!医学考研课程红榜推荐 - 品牌测评鉴赏家
  • 主治医师考试用书哪家好?2026实测推荐,医考党避坑必看 - 品牌测评鉴赏家
  • 【Linux】基础IO_缓冲区
  • 2026主治医师考试资料红黑榜!在职医生高效提分不踩坑 - 品牌测评鉴赏家