当前位置：首页 > news >正文

MinerU 3.4.0 PDF/文档转 Markdown/Word软件免安装一键启动整合包

news 2026/6/26 11:43:26

一、软件简介

本软件基于MinerU 3.4.0开源文档解析引擎，提供了一套开箱即用的图形化文档转换工具。它能够将 PDF、图片、Office 文档（DOCX/PPTX/XLSX）等内容精准地转换为Markdown 文本或Word 文档，同时保留原始文档的版面结构和排版信息。下载解压后一键启动即可使用。

二、主要功能特点

1. 多格式输入支持

文件类型	格式
PDF	`.pdf`
图片	`.jpg`,`.jpeg`,`.png`,`.gif`,`.webp`,`.svg`,`.bmp`,`.tiff`,`.tif`
Word	`.docx`
PowerPoint	`.pptx`
Excel	`.xlsx`

2. 三种解析后端可选

后端	特点	适用场景
pipeline	传统多模型管道解析，支持多语言，无幻觉	对精度要求高、需要多语言支持的通用文档
vlm-auto-engine	多模态大模型（VLM）高精度解析，仅支持中英文	学术论文、技术文档等复杂排版
hybrid-auto-engine	混合引擎，结合 pipeline 的速度与 VLM 的精度	平衡速度与精度的最佳选择（默认）

3. 丰富的识别能力

公式识别— 自动识别行内公式和行间公式，输出 LaTeX 格式
表格识别— 识别并还原为 Markdown 表格，禁用时以图片形式保留
图片分析— 使用 VLM 模型对文档中的图片/图表进行语义分析（vlm/hybrid 后端）
OCR 文字识别— 支持 60+ 种语言，包括中文、英文、日文、韩文、阿拉伯文、拉丁语系、斯拉夫语系等
版面还原— 保留原始文档的标题层级、段落顺序和版面布局

4. 输出格式

Markdown 渲染预览— 直接在浏览器中查看渲染后的排版效果，支持 LaTeX 公式渲染
Markdown 纯文本— 可复制粘贴的源代码格式
Word 文档导出— 通过 Pandoc 将 Markdown 转换为.docx格式
PDF 预览— 上传 PDF 或图片后在右侧直接预览原文档

5. 批量处理

支持对文件夹中所有支持的文档进行批量转换，自动遍历排序，逐文件处理并汇总结果，转换结果统一输出到./output目录。

三、使用方法

3.1 启动软件

方式一：一键启动（推荐）

直接双击0启动软件.bat

python start.py

启动成功后，浏览器将自动打开http://localhost:7860，进入 Web 操作界面。

3.2 单文件转换

在 Web 页面中点击"请选择要上传的文件"，上传 PDF、图片或 Office 文档
配置转换参数（参见下文"参数说明"）
点击"转换"按钮
等待转换完成，在右侧查看：
- 转换状态— 实时进度
- Markdown 渲染— 渲染后的效果预览
- Markdown 文本— 原始 Markdown 源码

3.3 批量转换

在Batch Processing区域输入要处理的文件夹路径
配置统一的转换参数
点击"批量转换"按钮
系统将自动遍历文件夹中所有支持的文档，逐文件处理并输出汇总结果

3.4 参数说明

参数	说明
起始页码	从第几页开始（从 0 计，默认 0）
结束页码	处理到第几页（-1 表示最后一页）
解析后端	pipeline / vlm-auto-engine / hybrid-auto-engine
解析方法	auto（自动）/ txt（仅文本）/ ocr（强制 OCR）
解析强度	medium（较快，禁用图片分析）/ high（高精度，启用图片分析）
启用公式识别	识别并解析文档中的数学公式
启用表格识别	识别并还原表格结构
启用图片分析	对文档内图片/图表进行语义分析（VLM 后端有效）
导出 Word	额外生成 .docx 格式文件
语言	选择 OCR 识别的语言（支持 60+ 语言）

四、输出说明

所有转换结果默认保存在软件根目录下的./output/文件夹中，按文件名称自动创建子目录：

output/ └── 文件名/ ├── 文件名.md # Markdown 结果文件 ├── 文件名_layout.pdf # 版面布局预览 PDF（图片/PDF 文档） ├── 文件名_origin.pdf # 原始 PDF 预览（图片/PDF 文档） ├── 文件名.docx # Word 导出文件（勾选导出时生成） ├── images/ # 提取的图片资源 ├── content_list.json # 内容列表（结构化中间数据） └── model_output.json # 模型输出原始数据

五、系统与环境说明

硬件要求

推荐配置：NVIDIA GPU（6GB+ 显存），支持 CUDA
最低配置：CPU 模式（速度较慢，VLM 后端不可用）
内存：建议 16GB 以上

后端选择建议

使用场景	推荐后端	原因
通用中文 PDF	hybrid-auto-engine（默认）	速度与精度均衡
学术论文（含大量公式）	vlm-auto-engine	公式识别更准确
多语言混合文档	pipeline	多语言支持最完善
简单文字 PDF	pipeline + auto	速度最快
扫描件/图片型 PDF	任意 + ocr	强制 OCR 识别
需要远程 GPU	xxx-http-client	可对接远程 API 服务