当前位置: 首页 > news >正文

自适应 PDF:同一文件,人类可读格式与机器 Markdown 文本自适应输出!

自适应 PDF:新技术的诞生背景

PDF 作为一种视觉格式,存储着在页面上绘制字形的指令。虽然规范支持“标签化 PDF”(Tagged PDF)用于标记标题、段落和列表,但实际中多数 PDF 是未标记的。像 LaTeX、Chrome 的打印成 PDF 功能及大多数导出工具都不会生成标签,文本提取器只能按从左到右、从上到下顺序读取绘制命令提取文本。在只有人类阅读 PDF 时,这种情况无关紧要,但如今多数 PDF 会被输入到大型语言模型(LLM)中,而从本身不携带结构信息的 PDF 格式中重建结构成了所有处理工具面临的问题。

自适应 PDF 的工作原理

自 2001 年发布的 PDF 1.4 版本起,PDF 规范中有一个属性允许为标记内容定义替换文本。渲染器会忽略这个替换文本,按内容流指令绘制,但支持该属性的文本提取器会返回替换文本而非视觉文本。在测试中,PyMuPDF 和 Poppler 都支持这个属性,主要的开源提取器也能处理它。该属性最初为连字和无法自然映射到 Unicode 的字符设计,但未广泛应用。现在将其应用到文档层面,通过标记内容序列,将替换文本附加到内容流中,支持该属性的提取器就会返回结构化的 Markdown 文本,同一个 PDF 文件对不同阅读者会产生不同输出,但渲染时外观相同。

提取器实际看到的内容对比

同一个 PDF 视觉外观相同,但普通 PDF 和智能 PDF 经 PyMuPDF 提取的内容差异明显。普通 PDF 提取的文本无层次结构,句子中间换行,项目符号与段落难区分,表格被拆分;而智能 PDF 提取的文本有 # 标题、Markdown 表格、 - 项目符号,句子不会在单词中间断开,LLM 无需猜测章节标题和列表内容,信息清晰。

自适应 PDF 的基准测试

使用自己的工具将多个 PDF 转换为智能 PDF,分别用 PyMuPDF 的 get_text() 方法和 https://www.pdf2go.com/ 从普通 PDF 和智能 PDF 中提取文本,都返回 Markdown 格式,通过 tiktoken(cl100k_base)统计标记数量。基准测试脚本可在代码仓库找到。测试结果显示,标记数量大致相同,该方法优势在于让相同标记携带结构信息,提高了每个标记的信息密度。对于大多数文件,大小开销在个位数百分比,教科书大小减小是因为 PyMuPDF 使用 garbage = 3 保存时移除未使用的 PDF 对象,这是通用优化方法。将智能 PDF 上传到 ChatGPT 和 Claude,要求复制粘贴原始文本,两者都返回含 #、##、 - 项目符号的 Markdown 格式,输出结果与嵌入的层次结构完全匹配。

自适应文档的优势

最终得到的自适应 PDF 是一种能根据阅读者自适应的文档。人类打开看到熟悉的格式化 PDF,机器读取得到简洁的 Markdown 文本,包含标题、列表和结构信息。只需一个文件,无需单独版本和转换步骤,根据阅读者不同自动呈现合适内容,无需管理和维护两份副本,文档本身会根据使用方式决定呈现内容。开发者正在积极探索更多相关内容,并计划为 Google Docs 开发扩展以简化过程,这只是首次尝试。

http://www.jsqmd.com/news/1006680/

相关文章:

  • ReadCat免费开源小说阅读器:5分钟快速上手指南,打造纯净无广告阅读空间
  • 国内PVC/PVDC实力工厂哪个公司好 - 速递信息
  • 2026长沙自然式风格花园庭院设计施工公司排行榜:半山营造位居榜首,七家实力机构深度盘点 - 玖叁鹿
  • ReadCat小说阅读器:打造你的终极纯净阅读空间
  • MC68328微控制器RTC与定时器模块:从原理到实战编程详解
  • FanControl终极指南:三步解决电脑风扇噪音与散热难题
  • 2026 沈阳黄金变现,老店零差评,无票 / 变形 / 断裂黄金正常收 - 讯息早知道
  • 沈阳大东 / 铁西黄金回收,无损光谱验金,30 秒出结果不损伤金饰 - 讯息早知道
  • 2026 青岛蔡司视觉体验店最新评测:4家门店专业配镜实力解析 - 奔跑123
  • 2026福州欧米茄回收实测指南!行情解析+靠谱机构测评+变现避坑 - 薛定谔的梨花猫
  • Cursor Free VIP完整解决方案:3步突破AI编程助手使用限制的终极指南
  • 深入解析NXP LS1046A SEC队列接口与错误处理寄存器
  • 抖音下载器开源项目实战教程:从零搭建24小时自动采集系统完整指南
  • 如何快速掌握VLC Android投屏:无线流媒体终极教程
  • 终极指南:5分钟完成PostgreSQL到MySQL的免费数据迁移
  • 深入解析MC68377 CTM9 DASM:输出比较与PWM模式实战指南
  • 企业级微博图片采集解决方案:无登录自动化下载引擎
  • VRoidStudio汉化插件:零基础入门到个性化定制完全指南
  • 【Springboot毕设全套源码+文档】基于Spring Boot+Vue的植物知识分享系统的设计与实现(丰富项目+远程调试+讲解+定制)
  • AutoRaise终极教程:3分钟掌握macOS悬停自动激活窗口技巧
  • Duplicity:终极免费的《缺氧》游戏存档编辑器完整指南
  • MC68SZ328 CSPI与USB设备模块寄存器级编程实战指南
  • 如何突破城通网盘下载限速?完整解析工具使用指南
  • 通达信缠论可视化插件:终极指南让技术分析变得简单
  • 2026西安建筑防水补漏市场适配指南:陕西冠盾建筑修缮工程有限公司及优质服务商解析 - 冠盾建筑修缮
  • Windows本地实时语音转文字终极指南:5分钟搭建你的隐私安全助手
  • 注销卡在税务环节不用愁!青浦靠谱代办机构深度盘点 - 企服靠谱君
  • Tomcat 的 Pipeline 比你写的责任链复杂10倍
  • 宿州唯品装饰的“砸无赦”:一套自我纠错的质量保障机制 - 装企自媒体训练营辉哥
  • 深入解析NXP Kinetis SIM模块:时钟、路由与低功耗配置实战