当前位置: 首页 > news >正文

PDF-OCR文件识别篇(五):字段定义与提示词工程

抽取质量的关键不在「怎么调模型」,而在「怎么跟模型说话」。本模块用系统提示词 + 按表注入字段定义两段式,把通用大模型驯成针对你这套表格的专业抽取器。

5.1 系统提示词SYSTEM_PROMPT

定义在AiPdfExtractionServiceImpl,固化了 7 条抽取铁律。这是所有表共用的「底座规则」:

  1. 逐字保留:严格按原文抽取,禁止概括、改写、缩写、翻译、合并、推测、补全;完整保留全部文字、数字、单位、括号与符号。
  2. 字段约束:若给了「字段清单」,columns必须与之完全一致(同名、同序、不缺、不改名、不新增、不合并);每个 row 都要含全部字段,无内容填""
  3. 输出形态:键值型登记表 → JSON 对象;多行明细表 →{"columns":[...], "rows":[{列名:值,...}, ...]}
  4. 合并单元格向下填充:纵向合并的值属于它跨越的所有行,必须在每一行都重复填入,绝不能只在首行填、其余留空。
  5. 跨页折行合并:若某行只有个别单元格有少量文字、标识列(如序号、记录编号)为空,说明是上一行被折断的续接文字,合并回上一行,不单独成行。
  6. 去掉页眉页脚、页码(如「— 2 —」)、表格标题等无关内容。
  7. 只输出 JSON,不要任何解释或 markdown 代码块。

第 4、5 条最关键——它们直接对抗 PDF 表格最常见的两类结构破坏。配合第 4 章百度 OCR 识别出的结构化 JSON 作为输入:提示词约束 + 结构化输入,两头夹,才压得住。

提示词里的「领域身份」可按需替换。比如把开头设成「你是某某单据的结构化抽取专家」,能进一步收敛模型对该领域术语的理解,但 7 条铁律是通用的。

5.2 字段注册表TableSchemaRegistry+table-schema.json

字段定义文件

resources/schema/table-schema.json按「表格标题」定义每张表的结构示例:

"基本信息表": { "title": "基本信息表", "rootKey": "基本信息", "type": "object", "example": { "单位名称": "示例科技有限公司", "注册地址": "某省某市某区某路1号", "统一社会信用代码": "9100000000000000XX", "联系电话": "010-00000000", "证件文号列表": ["示字〔2021〕4号", "..."], "指标": { "指标A": { "数值": 5588.22, "单位": "t/a", "说明": "..." } } } }

example是一份「填好的样表」,直接示范字段名、嵌套层级、数据类型——比干巴巴列字段名更能约束模型输出。

注册表加载与匹配

TableSchemaRegistry@PostConstruct时加载,外部文件schemaPath优先,否则用 classpath 内置,按「去表号/空白」归一化后的标题建索引:

public TableSchema getByTitle(String title) { TableSchema s = schemas.get(normalize(title)); // ① 精确匹配 if (s != null) return s; for (entry : schemas) // ② 包含兜底 if (key.length() >= 4 && (norm.contains(key) || key.contains(norm))) return entry.getValue(); return null; } // normalize: 去掉开头「表N / 表N-N」前缀与所有空白

为什么按标题而非表号匹配?因为同一类表在不同文档里表序号可能不同(这份里是表48,那份里可能是表46),标题更稳定。

外部文件优先还有个运维价值:不重启、不重新打包就能调字段定义,线上发现某表抽得不对,改 JSON 文件即可。

5.3 动态注入buildSchemaBlock

抽取每张表时,把该表的字段定义拼进用户提示词。逻辑分三档:

TableSchema schema = tableSchemaRegistry.getByTitle(title); if (schema == null) return ""; // ③ 未配置 → 自由抽取 if (schema.getExample() != null) { // ① 有结构示例(首选) // 数组型:要求输出 {"rootKey": [元素,…]},每个元素严格遵循示例 // 对象型:要求严格遵循结构示例 return "请输出 JSON 对象,严格遵循下面的「结构示例」…" + prettyJson(example); } if (schema.getFields() 非空) { // ② 只有字段清单 // 登记表:给「字段清单(对象键,不缺不改不增)」 // 明细表:给「columns 必须与字段完全一致」 }

最终拼出的用户提示词大致是:

表格标题:表3 设备明细表 请输出 JSON 对象,格式为 {"设备明细": [元素, ...]};数组每个元素严格遵循下面的「元素结构示例」… 元素结构示例: { "设备编号": "...", "设备名称": "...", "规格": "...", ... } 以下是该表百度 OCR 识别出的内容 JSON(跨页已合并),请严格据此抽取为结构化 JSON,逐行输出、不要遗漏任何一行…… <OCR 识别结果 JSON>

5.4 这套提示工程为什么有效

手段对抗的问题
系统提示词「逐字保留」模型自作主张改写/缩写
系统提示词「合并填充 / 折行合并」PDF 表格结构破坏
example结构示例字段名漂移、层级随意、类型乱填
按标题匹配 + 外部文件优先表号差异、线上免重启调整
强制json_object+ 低温(见第 6 章)输出非 JSON、随机性过高

一句话:铁律定下限,结构示例定上限,对齐输入降难度。三者缺一,抽取质量都会塌方。

http://www.jsqmd.com/news/1095721/

相关文章:

  • Zephyr 源码调试:从零搭建 QEMU 虚拟化调试环境
  • 2026甘肃黄金回收白银回收铂金回收旧料回收怎么选?五家高实价铂金白银线下门店测评清单 + 联系方式
  • 【Pygame实战】从零到一:打造你的‘像素喵星人’跑酷游戏
  • H5+Plus实战:低功耗蓝牙设备连接与数据交互全流程解析
  • 公证处公证亲属关系需要什么材料?亲属关系公证办理流程是什么?
  • DataX实战(02)- 在IDEA中从源码编译到插件调试的一站式指南
  • Logback + ELK 实现北极星日淘日志集中收集与异常排查
  • 如何3步掌握歌词滚动姬LRC Maker:免费制作专业滚动歌词的终极指南
  • 如何3步打造个人云游戏平台:Sunshine串流服务器实战指南
  • Next.js中间件安全漏洞CVE-2025-29927:原理、复现与纵深防御实战
  • 终极指南:使用zteOnu命令行工具快速开启ZTE光猫工厂模式
  • 百家号批量发布工具实测:安全、效率、管理对比
  • 从零构建:基于STM32与MPU6050的跌倒检测算法实战
  • AI幻觉暗藏学术风险!高价通用模型,终究替代不了专业科研平台
  • 从零到一:手把手教你激活并安装Unity个人免费版
  • 山西酒店大模型 AI 电视
  • Twitter 如何通过关键词获得精准流量?实操思路详解
  • 告别环境配置地狱,手把手教你在 ROCm 上编译 vLLM
  • 在Linux上解锁完整B站体验:3个痛点场景与深度解决方案
  • CC++选择题练习
  • RS232接口的“金钟罩”:热插拔与ESD防护电路设计实战
  • 零碳园区智能化管理平台执行反馈层的效果反馈实现逻辑
  • 从统计平滑到物理硬边界:KCC FILTER 估计器的收敛性修复
  • 终极指南:用Nucleus Co-Op实现一台电脑四人同屏游戏
  • Borderless Gaming完全指南:3步实现游戏无边框窗口化的终极解决方案
  • G-Helper:华硕笔记本终极控制指南,三步解锁完整硬件潜能
  • MI300X 显存不够用,试试 vLLM 的量化与分页注意力
  • 你的QQ空间记忆会消失吗?用这个开源工具永久珍藏青春
  • 高环境适应性、高速熔接与长续航,鼎讯 AM-401 在石油数字化场景中的优势
  • Playwright for .NET端到端测试实战:从登录到业务全流程覆盖