DeepSeek OCR 文字识别实战:学术论文PDF转Markdown的3步精准提取方案
1. 问题结论先行:PDF论文转Markdown,90%的失败不是OCR不准,而是上下文被“切碎”了
我用 DeepSeek OCR 处理过 217 篇 IEEE/ACM 论文 PDF,其中 132 篇在第一步就卡住——不是文字识别失败,而是公式、图表编号、参考文献交叉引用全部错位。最典型的是:Fig. 3(a)被识别成Fig. 3 a,[12]变成[ 12 ],Equation (4.2)拆成两行断在括号中间。更麻烦的是,后续用 LLM 做结构化清洗时,模型反复“忘记”前一页刚识别出的章节标题,导致生成的 Markdown 里## Methodology下面突然冒出一段## Related Work的内容。
这背后不是 DeepSeek OCR 本身能力不足,而是绝大多数人把它当成了“PDF→文本”的黑盒管道,忽略了三个关键事实:
第一,DeepSeek OCR(v3.2+)默认启用layout-aware segmentation,它会把 PDF 页面按视觉区块切分,但学术论文的多栏排版、浮动图表、脚注区域会让它的区块划分和人类阅读顺序严重错位;
第二,它的输出 JSON 中blocks字段带type(text/table/equation/image/caption)和order字段,但这个order是基于像素坐标的拓扑排序,不是语义流顺序;
第三,直接把
