MinerU 系列教程 第十一课:表格识别 - 有线与无线的双引擎
MinerU 系列教程 第十一篇
本篇教程继续模块三:深入篇 - AI 模型详解,将聚焦文档解析中最具挑战性的子任务之一 —— 表格识别。文档中的表格千差万别:有的用清晰的线条分隔(有线表格),有的完全依靠空白和对齐来组织(无线表格)。MinerU 为此设计了一套双引擎方案:先用分类器判断表格类型,再分别调用 SLANET-Plus(无线)和 UNet(有线)两个识别引擎,最终生成标准的 HTML 表格代码。此外,表格图像可能因扫描倾斜而旋转,MinerU 还引入了方向分类器来自动矫正。你将看到从分类、结构识别、OCR 匹配到 HTML 生成的完整流水线。
学习目标
完成本课学习后,你将能够:
- 理解表格识别在文档解析流水线中的位置与编排顺序
- 掌握表格分类器
PaddleTableClsModel的 224x224 预处理与有线/无线判定逻辑 - 理解无线表格引擎 SLANET-Plus 的"结构预测 + OCR 匹配"工作流
- 理解有线表格引擎 UNet 的"线检测 → 单元格提取 → 行列恢复"工作流
- 了解有线/无线双引擎的竞争选择机制
- 掌握表格内联对象(图片、公式)的检测与注入流程
- 理解图像方向分类器
PaddleOrientationClsModel的三级筛选策略 - 读懂表格识别相关核心源码的完整结构
