当前位置：首页 > news >正文

Umi-OCR完整指南：免费离线OCR软件的终极使用教程

news 2026/7/15 10:43:34

Umi-OCR完整指南：免费离线OCR软件的终极使用教程

【免费下载链接】Umi-OCROCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。项目地址: https://gitcode.com/GitHub_Trending/um/Umi-OCR

Umi-OCR是一款完全免费、开源、离线的OCR文字识别软件，支持截图识别、批量图片处理、PDF文档转换和二维码扫描生成等多种功能。作为一款无需网络即可高效工作的文字识别工具，它内置了多国语言识别库，是学生、办公人士和开发者的得力助手。本文将带你从零开始，全面掌握这款强大工具的使用方法，让文字识别变得简单高效。

🚀 快速上手：30秒完成安装与配置

一键安装部署

Umi-OCR采用绿色免安装设计，解压即可使用，彻底告别复杂的配置过程：

从项目仓库下载最新版本：git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR
找到压缩包Umi-OCR_Rapid_v2.1.5.7z，右键解压到任意文件夹
双击Umi-OCR.exe即可启动程序（Linux用户运行umi-ocr.sh）

💡 小贴士：如果你的电脑没有压缩软件，可以下载自解压版本（.7z.exe），双击即可自动解压。

界面语言与主题设置

软件首次启动时会根据系统语言自动切换界面语言，你也可以在「全局设置→语言/Language」中手动调整：

软件支持中文、英文、日文等多种语言界面，同时提供多个亮/暗主题供选择，你可以根据个人喜好调整界面外观。

✨ 核心功能深度解析

截图OCR：随取随用的文字提取神器

截图OCR是Umi-OCR最常用的功能，只需三步即可将屏幕上的文字转为可编辑文本：

打开软件后点击「截图OCR」标签页
使用快捷键（默认Ctrl+Alt+Z）唤起截图工具
框选需要识别的区域，松开鼠标后自动完成识别

识别完成后，你可以：

直接复制识别结果（Ctrl+C）
编辑修正识别文本
保存为TXT/JSONL/MD等格式
对识别结果进行排版优化

批量OCR：百张图片秒级处理

面对大量图片需要识别时，批量OCR功能能帮你节省数小时工作时间：

操作步骤：

切换到「批量OCR」标签页
点击「选择图片」或直接拖拽文件到列表区
（可选）设置忽略区域排除水印/页眉
点击「开始任务」，等待完成

支持的图片格式：JPG、PNG、WebP、BMP、TIFF等常见格式，一次可处理数百张图片。

文档识别：PDF扫描件转可编辑文本

Umi-OCR能将扫描版PDF转换为可搜索的文本，甚至生成双层PDF（保留原图+可复制文本）：

在批量OCR页面点击「选择文件」，导入PDF文档
在设置中选择输出格式（纯文本或双层PDF）
启动任务，软件会自动分页识别

📌 实用技巧：对于有页眉页脚的文档，使用「忽略区域」功能可以精准排除干扰内容。

二维码工具：扫码与生成一体化

除了文字识别，Umi-OCR还内置了强大的二维码功能：

扫码：截图或粘贴图片，自动识别其中的二维码/条形码
生成码：输入文本内容，生成自定义二维码

支持19种编码格式，包括QRCode、DataMatrix、PDF417等，满足各种场景需求。

⚙️ 个性化设置：打造你的专属OCR工具

界面语言与主题

软件默认根据系统语言自动切换，也可手动调整：

打开「全局设置」标签页
在「语言/Language」下拉菜单中选择偏好语言
「主题」选项可切换不同风格的界面（支持浅色/深色模式）

快捷键配置

自定义常用功能的快捷键，提升操作效率：

截图OCR默认：Ctrl+Alt+Z
重复上次截图：Ctrl+Alt+X
可在「全局设置→快捷键」中修改

输出格式定制

根据需求设置识别结果的保存格式：

纯文本（TXT）
表格格式（CSV，可直接用Excel打开）
标记语言（MD）
JSON行格式（JSONL，适合开发者）

🔧 高级功能与实用技巧

文本后处理：智能排版解析

Umi-OCR提供多种排版解析方案，让识别结果更符合阅读习惯：

多栏-按自然段换行：适合大部分情景，自动识别多栏布局
多栏-总是换行：每段语句都进行换行
单栏-保留缩进：适用于解析代码截图，保留行首缩进和行中空格
不做处理：OCR引擎的原始输出

忽略区域功能：精准排除干扰

在处理带有水印、页眉页脚的文档时，忽略区域功能特别有用：

在批量OCR页面的右栏设置中进入忽略区域编辑器
按住右键，绘制多个矩形框
这些区域内的文字将在任务中被忽略

💡 提示：尽量将矩形框画得大一些，完全包裹住水印所有可能出现的位置。

🌐 多语言支持：打破语言壁垒

Umi-OCR内置多国语言识别库，支持中文、英文、日文、韩文等50+语言。如需识别特殊语言，可在设置中安装额外的语言包。

软件界面也已本地化多种语言，支持中文、英文、日文等界面，为全球用户提供友好的使用体验。

💻 开发者接口：灵活集成方案

命令行调用

Umi-OCR提供完整的命令行接口，适合自动化脚本集成：

# 获取帮助信息 umi-ocr --help # 弹出主窗口 umi-ocr --show # 隐藏主窗口 umi-ocr --hide # 关闭软件 umi-ocr --quit

详细命令行手册可参考 docs/README_CLI.md。

HTTP接口

对于需要远程调用的场景，Umi-OCR提供HTTP接口：

在全局设置中启用HTTP服务
通过RESTful API调用OCR功能
支持图片OCR、文档识别、二维码识别等多种接口

详细API文档可参考 docs/http/README.md。

🛠️ 故障排除与优化建议

提高识别准确率的3个秘诀

保证图片清晰：模糊的图片会降低识别率，尽量使用高清截图
调整识别区域：精准框选文字区域，避免无关背景干扰
使用文本后处理：在设置中选择合适的排版解析方案

常见问题解决

识别速度慢：尝试切换OCR引擎（在「全局设置→OCR插件」中选择）
界面显示异常：在「全局设置→渲染器」中切换不同渲染方案
无法识别竖排文字：确保已安装对应语言包，并在设置中启用竖排识别

📈 应用场景与效率提升

学生群体：学习资料数字化

将教材扫描件转换为可编辑文本
整理课堂笔记和PPT截图
批量处理文献资料

办公人士：文档处理自动化

批量识别合同、发票等文档
将纸质文件数字化归档
快速提取图片中的联系信息

开发者：代码截图识别

将代码截图转换为可运行代码
批量处理技术文档截图
自动化文档生成流程

🔍 项目结构与扩展

项目架构

Umi-OCR采用模块化设计，主要结构包括：

Umi-OCR ├─ Umi-OCR.exe ├─ umi-ocr.sh └─ UmiOCR-data ├─ main.py ├─ version.py ├─ qt_res │ └─ 项目qt资源，包括图标和qml源码 ├─ py_src │ └─ 项目python源码 ├─ plugins │ └─ 插件 └─ i18n └─ 翻译文件