当前位置：首页 > news >正文

rag的图文多模态

news 2026/7/28 5:29:55

1.图片常见处理

图片 OCR = 图片里写了什么字
图片 caption = 这张图大概画了什么
图片附近正文 = PDF 里紧挨着图片的解释文字
图片所在页全文 = 图片所在那一整页的文字

ocr工具Releases · UB-Mannheim/tesseract · GitHub

unstructured的切割原理

文档地址：Document elements and metadata - Unstructured

元素说明

元素类型 描述 Formula 文档中包含公式的元素。 FigureCaption 用于捕获与图注相关的文本的元素。 NarrativeText 叙述文本是由多个结构完整的句子组成的元素。这不包括标题、页眉、页脚和图注等元素。 ListItem ListItem 是 NarrativeText 元素，它是列表的一部分。 Title 用于显示标题的文本元素。 Address 用于记录实际地址的文本元素。 EmailAddress 用于收集电子邮件地址的文本元素。 Image 用于捕获图像元数据的文本元素。 PageBreak 用于捕获分页符的元素。 Table 用于捕获表格的元素。 Header 用于捕获文档标题的元素。 Footer 用于捕获文档页脚的元素。 CodeSnippet 用于捕获代码片段的元素。 PageNumber 用于获取页码的元素。 UncategorizedText 用于捕获文档内自由文本的基本元素。

参数说明

filename: Optional[str] = None PDF 文件路径。比如 "docs/a.pdf"。 file: Optional[IO[bytes]] = None 已经打开的二进制文件对象。通常和 filename 二选一。 include_page_breaks: bool = False 是否在结果里包含分页符/分页元素，用来标记页与页之间的断点。 strategy: str = PartitionStrategy.AUTO 解析策略。AUTO 表示自动选择。常见策略可能包括普通文本提取、OCR、高精度布局识别等。 infer_table_structure: bool = False 是否推断表格结构。开启后会尝试把表格解析成更结构化的形式，而不是普通文本。 ocr_languages: Optional[str] = None OCR 识别语言，旧参数，注释里说正在废弃。比如 "eng"、"chi_sim" 等，具体取决于底层 OCR 支持。 languages: Optional[list[str]] = None OCR/语言识别使用的语言列表。新参数，可能用来替代 ocr_languages。比如 ["eng", "chi_sim"]。 detect_language_per_element: bool = False 是否对每个元素单独检测语言。比如标题是中文、正文是英文时，可以分别判断。 metadata_last_modified: Optional[str] = None 手动指定文档的最后修改时间元数据。比如 "2024-01-01"。 chunking_strategy: Optional[str] = None 分块策略。通常由装饰器使用，用来控制解析出的元素如何进一步合并成 chunk。 hi_res_model_name: Optional[str] = None 高精度解析时使用的模型名称。通常用于布局检测、表格检测、图片区域识别等。 extract_images_in_pdf: bool = False 是否从 PDF 中提取图片。这个参数可能是旧接口，后面更推荐用 extract_image_block_types 之类的参数。 extract_image_block_types: Optional[list[str]] = None 指定要提取哪些类型的图像块。比如可能包括 "Image"、"Table" 等，具体看库支持。 extract_image_block_output_dir: Optional[str] = None 图片/图像块提取后保存到哪个目录。 extract_image_block_to_payload: bool = False 是否把提取出来的图像块直接放进返回结果的 payload 里，而不是保存成文件路径。 starting_page_number: int = 1 起始页码编号。默认第一页编号为 1。如果你的 PDF 是从某本书第 10 页开始的，可以设成 10。 extract_forms: bool = False 是否提取 PDF 表单内容，比如可填写表单里的字段。 form_extraction_skip_tables: bool = True 提取表单时是否跳过表格区域。默认跳过，避免把表格误判成表单。 password: Optional[str] = None PDF 密码。如果 PDF 加密了，可以传密码。 pdfminer_line_margin: Optional[float] = None pdfminer 的行间距合并参数。影响哪些文字行会被认为属于同一个文本块。 pdfminer_char_margin: Optional[float] = None pdfminer 的字符间距参数。影响字符/单词如何被合并。 pdfminer_line_overlap: Optional[float] = None pdfminer 的行重叠判断参数。影响文本行识别。 pdfminer_word_margin: Optional[float] = 0.185 pdfminer 的词间距参数。影响什么时候在字符之间插入空格。默认是 0.185。

PDF 页面

一个el：只对应图中一个框（一段字 / 一张表 / 一张图）

┌─────────────────────────────┐
│ Title → el #1 │
│ 正文段落 → el #2 │
│ ┌─────────┐ │
│ │ 表格 │ → el #3 │
│ └─────────┘ │
│ ┌─────────┐ │
│ │ 图片 │ → el #4 │
│ └─────────┘ │
└─────────────────────────────┘

标题分，父子索引

查看全文

http://www.jsqmd.com/news/963803/