当前位置: 首页 > news >正文

rag的图文多模态

1.图片常见处理

图片 OCR = 图片里写了什么字
图片 caption = 这张图大概画了什么
图片附近正文 = PDF 里紧挨着图片的解释文字
图片所在页全文 = 图片所在那一整页的文字

ocr工具Releases · UB-Mannheim/tesseract · GitHub

unstructured的切割原理

文档地址:Document elements and metadata - Unstructured

元素说明

元素类型 描述 Formula 文档中包含公式的元素。 FigureCaption 用于捕获与图注相关的文本的元素。 NarrativeText 叙述文本是由多个结构完整的句子组成的元素。这不包括标题、页眉、页脚和图注等元素。 ListItem ListItem 是 NarrativeText 元素,它是列表的一部分。 Title 用于显示标题的文本元素。 Address 用于记录实际地址的文本元素。 EmailAddress 用于收集电子邮件地址的文本元素。 Image 用于捕获图像元数据的文本元素。 PageBreak 用于捕获分页符的元素。 Table 用于捕获表格的元素。 Header 用于捕获文档标题的元素。 Footer 用于捕获文档页脚的元素。 CodeSnippet 用于捕获代码片段的元素。 PageNumber 用于获取页码的元素。 UncategorizedText 用于捕获文档内自由文本的基本元素。

参数说明

filename: Optional[str] = None PDF 文件路径。比如 "docs/a.pdf"。 file: Optional[IO[bytes]] = None 已经打开的二进制文件对象。通常和 filename 二选一。 include_page_breaks: bool = False 是否在结果里包含分页符/分页元素,用来标记页与页之间的断点。 strategy: str = PartitionStrategy.AUTO 解析策略。AUTO 表示自动选择。常见策略可能包括普通文本提取、OCR、高精度布局识别等。 infer_table_structure: bool = False 是否推断表格结构。开启后会尝试把表格解析成更结构化的形式,而不是普通文本。 ocr_languages: Optional[str] = None OCR 识别语言,旧参数,注释里说正在废弃。比如 "eng"、"chi_sim" 等,具体取决于底层 OCR 支持。 languages: Optional[list[str]] = None OCR/语言识别使用的语言列表。新参数,可能用来替代 ocr_languages。比如 ["eng", "chi_sim"]。 detect_language_per_element: bool = False 是否对每个元素单独检测语言。比如标题是中文、正文是英文时,可以分别判断。 metadata_last_modified: Optional[str] = None 手动指定文档的最后修改时间元数据。比如 "2024-01-01"。 chunking_strategy: Optional[str] = None 分块策略。通常由装饰器使用,用来控制解析出的元素如何进一步合并成 chunk。 hi_res_model_name: Optional[str] = None 高精度解析时使用的模型名称。通常用于布局检测、表格检测、图片区域识别等。 extract_images_in_pdf: bool = False 是否从 PDF 中提取图片。这个参数可能是旧接口,后面更推荐用 extract_image_block_types 之类的参数。 extract_image_block_types: Optional[list[str]] = None 指定要提取哪些类型的图像块。比如可能包括 "Image"、"Table" 等,具体看库支持。 extract_image_block_output_dir: Optional[str] = None 图片/图像块提取后保存到哪个目录。 extract_image_block_to_payload: bool = False 是否把提取出来的图像块直接放进返回结果的 payload 里,而不是保存成文件路径。 starting_page_number: int = 1 起始页码编号。默认第一页编号为 1。如果你的 PDF 是从某本书第 10 页开始的,可以设成 10。 extract_forms: bool = False 是否提取 PDF 表单内容,比如可填写表单里的字段。 form_extraction_skip_tables: bool = True 提取表单时是否跳过表格区域。默认跳过,避免把表格误判成表单。 password: Optional[str] = None PDF 密码。如果 PDF 加密了,可以传密码。 pdfminer_line_margin: Optional[float] = None pdfminer 的行间距合并参数。影响哪些文字行会被认为属于同一个文本块。 pdfminer_char_margin: Optional[float] = None pdfminer 的字符间距参数。影响字符/单词如何被合并。 pdfminer_line_overlap: Optional[float] = None pdfminer 的行重叠判断参数。影响文本行识别。 pdfminer_word_margin: Optional[float] = 0.185 pdfminer 的词间距参数。影响什么时候在字符之间插入空格。默认是 0.185。

PDF 页面

  • 一个el:只对应图中一个框(一段字 / 一张表 / 一张图)

┌─────────────────────────────┐
│ Title → el #1 │
│ 正文段落 → el #2 │
│ ┌─────────┐ │
│ │ 表格 │ → el #3 │
│ └─────────┘ │
│ ┌─────────┐ │
│ │ 图片 │ → el #4 │
│ └─────────┘ │
└─────────────────────────────┘

标题分,父子索引

http://www.jsqmd.com/news/963803/

相关文章:

  • CSDN AI数据看板能否查关键词排名?实测5类API接口+4层权限验证后给出 definitive 答案
  • 不同情况怎么卖黄金?杭州各类人群黄金变现适配指南 - 奢侈品回收评测
  • 淘宝评论API接口返回参数详解
  • Simple Live:跨平台直播聚合应用的终极解决方案,一站式观看所有热门直播
  • 基于LabVIEW的虚拟示波器:低成本实现信号采集与数字滤波
  • uniapp开发蓝牙搜索startBluetoothDevicesDiscovery:fail Location services are turned off
  • 【项目博客】系统核心功能模块开发
  • Windows 11终极瘦身神器:Win11Debloat让你的系统重获新生
  • 如何用Deep-Live-Cam实现实时人脸替换:3步打造专业级视频特效
  • 2026年光身压入式定位珠/压入定位珠/无牙碰珠厂家推荐:滚花定位珠、平台定位珠、台阶定位珠等精密五金定位珠品牌选择指南 - 品牌企业推荐师(官方)
  • BugKu CTF 眼见非实
  • STM32CubeMX实战:独立看门狗IWDG的HAL库喂狗时机与避坑指南(附代码)
  • 2026年AI写作辅助软件深度评测:6款工具全能表现得分排名
  • 2026太原市权威认证贵金属回收 TOP5+黄金回收白银回收铂金回收门店地址电话推荐
  • 拯救MacBook电池健康:3分钟学会用Charge Limiter延长电池寿命
  • 告别熬夜做答辩PPT!百考通AI一站式解决学术汇报制作难题
  • 2026年一键生成论文工具实测排行,哪款真正适合一站式撰稿?
  • 跨网数据安全交换:从“遍地是门”到“一道安检门”
  • 倍硫磷农药残留检测卡快速检测果蔬中的倍硫磷农药残留
  • iOS越狱完整解决方案:从iOS 17到iOS 26.5的终极实战指南
  • 3步诊断法:彻底解决novel-downloader小说下载失败问题
  • ESP8266内存不够用?巧用TFT_eSPI的Sprite类打造流畅动画和复杂UI界面
  • Windows CMD与Powershell常用命令
  • 2026年好用的AI论文工具推荐
  • 株洲黄金回收认准湘奢汇(天元店),拒绝隐形套路省心高效变现(附靠谱机构排行) - 生活测评小能手
  • 2026 掌握选店窍门,轻松锁定成都黄金回收口碑第一的权威实体门店 - 奢侈品回收评测
  • 技术大纲:DeepSeek一键导出word文档的办法
  • 2026台州市权威认证贵金属回收 TOP5+黄金回收白银回收铂金回收门店地址电话推荐
  • AI分发后单平台撤回成功率骤降42%?——基于137个真实案例的CSDN 2024 Q2分发引擎变更影响分析
  • 终极指南:5分钟学会使用uesave编辑Unreal Engine游戏存档