当前位置: 首页 > news >正文

marker-pdf中PdfConverter总控调度器学习;PdfConverter的输入类型全是str问题;PDF文档的RAG(检索增强生成);Python:默认参数里,永远不要 new 对象;

1.marker-pdf中PdfConverter总控调度器学习;
1️⃣ override_map
用来自定义/替换某一类 Block 的实现
2️⃣ use_llm
是否启用 LLM 增强
3️⃣ default_processors(核心流水线)
这是整个 PDF 结构重建的“流水线”,“不抽表格”去掉 TableProcessor。
4️⃣ default_llm_service
默认用 Gemini的LLM模型。

marker-pdf只认文件路径;
file_input: Union[str, io.BytesIO]
➡️ BytesIO 会被写成临时 PDF 文件 ➡️ 下游组件只认文件路径

语义过滤(processors)各项说明:

default_processors: Tuple[BaseProcessor, ...] = (OrderProcessor,               # ✅【必须】# 修正文档阅读顺序(多栏 / 流式)# 没它 = 文本顺序乱BlockRelabelProcessor,        # ⚠️# 修正 block 类型(正文 / 标题 / 引用等)# 对结构化输出有帮助,纯 RAG 可选LineMergeProcessor,           # ✅【必须】# 合并 PDF 强制换行# 不然一句话会被切成多行BlockquoteProcessor,          # ⚠️# 识别引用块(论文、规范)# RAG 中通常价值一般CodeProcessor,                # ⚠️# 识别代码块(API 文档 / 教程有用)# 普通文档可关DocumentTOCProcessor,         # ❌(RAG 通常不需要)# 识别目录(Table of Contents)# TOC 本身几乎不参与问答EquationProcessor,            # ⚠️# 识别数学公式(非 LLM)# 理工论文可能有用FootnoteProcessor,            # ❌# 脚注(引用编号、来源)# 噪声密度极高IgnoreTextProcessor,          # ✅【强烈推荐】# 忽略明确噪声文本(如 watermark)# 成本低、收益高LineNumbersProcessor,         # ❌# 行号(法律 / 标准文档)# 对 RAG 基本是毒药ListProcessor,                # ⚠️# 列表结构(条款、步骤)# 对 chunking 有帮助PageHeaderProcessor,          # ✅【强烈推荐】# 页眉页脚(书名、页码)# 必须去掉SectionHeaderProcessor,       # ✅【推荐】# 章节标题# 对 chunk 边界 & RAG 很重要TableProcessor,               # ❌(除非你明确需要表格)# 规则表格解析# 会产生大量碎文本LLMTableProcessor,            # ❌❌(RAG 默认关)# 用 LLM 解析表格# 成本高 + 噪声大LLMTableMergeProcessor,       # ❌# 合并 LLM 表格# 对问答价值低LLMFormProcessor,             # ❌# 表单识别(合同 / 表格)# 非问答核心内容TextProcessor,                # ✅【必须】# 最终正文抽取# 没它就没文本LLMComplexRegionProcessor,    # ❌# 复杂版面修复# 成本高,不稳定LLMImageDescriptionProcessor, # ❌# 图片转文字# RAG 中噪声极大LLMEquationProcessor,         # ⚠️# LLM 公式理解# 理工文献可考虑LLMHandwritingProcessor,      # ❌# 手写识别# RAG 极少用LLMMathBlockProcessor,        # ⚠️# 数学块整体识别# 非数学场景建议关LLMSectionHeaderProcessor,    # ⚠️# 用 LLM 修复标题# 可有可无LLMPageCorrectionProcessor,   # ❌# LLM 修正文档结构# 性价比低ReferenceProcessor,           # ❌【强烈建议关】# 参考文献# 对问答几乎无价值BlankPageProcessor,           # ⚠️# 空页处理# 有无影响不大DebugProcessor,               # ❌# 调试输出# 生产环境必关
)

2.PdfConverter的输入类型全是str问题;
目前,需要marker-pdf的过滤器;
marker 的核心设计目标是:
“所有组件都能通过 CLI + 配置文件 + JSON 反射加载”
➡️所以PdfConverter所有输入都是字符串str的形式,非常不利于开发
➡️ConfigParser是CLI → config 的官方映射表,能从这看到大多数的config类型

case "page_range":config["page_range"] = parse_range_str(v)      # list[int]case "disable_multiprocessing":config["pdftext_workers"] = 1                  # intcase "disable_image_extraction":config["extract_images"] = False               # bool

3.PDF文档的RAG(检索增强生成)
大模型(LLM)本身有 3 个硬伤:
❌ 不知道你的私有数据
❌ 上下文长度有限
❌ 容易胡编(幻觉)
① 文档加载(你现在做的就是这一步)
② 文本切块(Chunking)
③ 向量化(Embedding)
④ 向量检索(Retrieval)
⑤ 生成回答(Generation)
与传统直接将PDF喂给LLM模型的区别

方式 问题
直接粘 PDF ❌ 超长 / 乱 / 贵
微调模型 ❌ 成本高 / 更新慢
RAG ✅ 灵活 / 实时 / 可控

4.Python:默认参数里,永远不要 new 对象

http://www.jsqmd.com/news/288623/

相关文章:

  • 工厂预制化管道:2026年国内防腐管道领域的口碑之选,撬装产品设备/法兰管件/三通管件/异径管件,工厂预制化管道公司推荐
  • Tomcat+cpolar 让 Java Web 应用随时随地可访问
  • 2026年展厅数字人解决方案,3D、2D数字人定制与多终端AI交互全解析
  • paddleOCR识别模型训练流程;dify返回格式踩坑;
  • 分析哈尔滨路虎专修哪家便宜,卓越名车性价比超高
  • java 读取pdf文件内容_java读取pdf内容,零基础入门到精通,收藏这篇就够了
  • 盘点东北资质齐全的路虎改装公司,排名靠前的有哪些?
  • 2026柔性夹爪品牌选型指南:十大品牌全景评测,精准适配智造需求
  • 2026岩棉/玻镁/泡沫夹芯板厂家推荐,专业生产,品质可靠
  • 防锈膜品牌制造商哪家性价比高,天津金盛昱塑料制品有答案
  • 2026年1月四川绵阳旧楼加装电梯、老房加装电梯、加装电梯公司综合推荐
  • 详细介绍:5. MariaDB 数据库管理
  • 2026年柔性夹爪品牌综合实力榜:十大品牌全景透视与选型指南
  • git官方库PaddleOCR提供的几种模型库;github拉下来的源码和pip包(CLI)使用;supervisorctl部署踩坑;PaddleOCR文本检测模块训练实战(踩坑)
  • 2026东四省最新艺考集训学校 TOP5 评测!辽宁、沈阳等地优质培训机构权威榜单发布,助力艺考生升学梦想
  • uni-app 不同页面EventChannel通信
  • 超越期待:为什么说上海博禹泵业是国产水泵的“性价比王牌”?
  • 【ACM出版】第七届计算机信息和大数据应用国际学术会议(CIBDA 2026)
  • 文档识别架构思路整理;
  • 2026年苏州夹爪供应商深度解析:谁将成为您的柔性自动化伙伴?
  • 2025年电滑环市场占有率排行出炉,滑环/旋转接头/集电环/电环/气路滑环/光电滑环,电滑环源头厂家哪家权威
  • 2026聚乙烯蜡/氧化聚乙烯蜡/裂解聚乙烯蜡厂家推荐,专业生产,品质可靠
  • 2026年广州口碑好的Drupal服务企业排行榜,哪家性价比高?
  • 评测报告:浙江广告公司在品牌塑造中的角色与价值,当下广告优质品牌选购指南
  • 监控指标
  • YOLOv9 Torchaudio安装必要性:音频模块是否冗余?
  • 光伏线缆制造厂哪个值得选,品恩泰克品质保障受认可
  • FSMN-VAD服务守护:后台常驻进程配置教程
  • 2026年浑南专业的车衣改色实体店推荐榜单,车衣改色/太阳膜/贴车衣/汽车车衣/隐形车衣/汽车贴膜,车衣改色定制哪家好
  • 沪苏浙皖设备模型服务商推荐,聚景模型上榜了吗?