当前位置：首页 > news >正文

5分钟快速上手Umi-OCR：免费离线OCR软件的完整使用指南

news 2026/7/31 12:33:53

5分钟快速上手Umi-OCR：免费离线OCR软件的完整使用指南

【免费下载链接】Umi-OCROCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。项目地址: https://gitcode.com/GitHub_Trending/um/Umi-OCR

你是否经常需要从图片中提取文字？无论是截图中的代码片段、PDF扫描件中的文档内容，还是手机照片里的文字信息，手动输入不仅耗时还容易出错。今天我要介绍一款完全免费、离线运行、功能强大的OCR文字识别软件——Umi-OCR，它能帮你轻松解决这些烦恼！

Umi-OCR是一款开源免费的离线OCR工具，支持截图识别、批量图片处理、PDF文档识别、二维码生成与解析等多种功能。最棒的是，它完全离线运行，无需联网，保护你的隐私安全。无论你是学生、办公人员还是开发者，这款软件都能大幅提升你的工作效率。

软件下载与安装

首先，你需要下载Umi-OCR的最新版本。推荐从以下地址获取：

git clone https://gitcode.com/GitHub_Trending/um/Umi-OCR

如果你不想通过Git下载，也可以直接下载压缩包版本。软件无需安装，解压后直接运行Umi-OCR.exe即可开始使用。

💡提示：Umi-OCR支持Windows 7 x64及以上系统和Linux x64系统，确保你的系统符合要求。

核心功能快速上手

1. 截图识别：随时随地提取文字

截图识别是Umi-OCR最常用的功能。打开软件后，进入"截图OCR"标签页，按下默认快捷键Ctrl+Shift+S（可在设置中自定义），就可以框选屏幕上任意区域进行识别。

如上图所示，识别结果会实时显示在右侧面板中。你可以：

直接复制识别出的文本
查看识别历史记录
调整文本排版处理方式
将图片保存到本地

实用技巧：对于代码截图，建议选择"单栏-保留缩进"的排版方案，这样可以保持代码的原始格式。

2. 批量处理：高效处理大量图片

如果你需要处理多张图片，批量OCR功能是你的最佳选择。在"批量OCR"标签页中，你可以：

拖拽图片或文件夹到软件界面
设置输出格式（支持txt、jsonl、md、csv）
点击"开始任务"自动处理

批量处理特别适合以下场景：

整理电子书扫描件
处理会议纪要照片
提取大量文档图片中的文字
整理学习资料

3. 文档识别：PDF转可搜索文本

Umi-OCR支持PDF、EPUB、MOBI等格式的文档识别。在"文档识别"标签页中，你可以：

对扫描件进行OCR，提取文字内容
生成双层可搜索PDF（保留原始图片层和文字层）
排除页眉页脚等不需要的区域
设置任务完成后自动关机

注意事项：对于大型PDF文件，建议先测试几页，确认识别效果后再进行批量处理。

个性化设置与优化

界面与语言设置

Umi-OCR支持多国语言界面，包括简体中文、繁体中文、英语、日语、俄语等。首次启动时会根据系统语言自动选择，你也可以在全局设置中手动切换。

在全局设置中，你还可以：

调整界面主题（亮色/深色）
修改字体大小和样式
设置开机自启动
添加快捷方式到桌面或开始菜单

OCR引擎选择

Umi-OCR内置两种OCR引擎：

PaddleOCR：识别速度快，准确率高
RapidOCR：兼容性好，资源占用低

你可以在"全局设置"→"OCR引擎"中切换。如果遇到识别问题，可以尝试切换引擎看是否能解决。

高级功能配置

忽略区域功能：在处理带有水印或页眉页脚的图片时，你可以设置忽略区域，排除不需要的文字内容。在批量OCR设置中，按住右键绘制矩形框，框内的文字将被忽略。

文本后处理：Umi-OCR提供多种排版解析方案，包括：

多栏-按自然段换行（推荐）
多栏-总是换行
单栏-保留缩进（适合代码）
不做处理（原始输出）

命令行与API调用

对于开发者或需要自动化处理的用户，Umi-OCR提供了强大的命令行接口和HTTP API。

基础命令行操作

# 截图识别 umi-ocr --screenshot # 识别剪贴板中的图片 umi-ocr --clipboard # 识别指定图片 umi-ocr --path "D:/图片/test.png" # 识别文件夹中所有图片 umi-ocr --path "D:/图片文件夹"

HTTP接口调用

Umi-OCR内置HTTP服务器，支持通过API调用各种功能。首先需要在全局设置中启用HTTP服务：

启用后，你可以通过以下方式调用：

# 图片OCR识别 curl -X POST "http://localhost:1224/api/ocr" \ -H "Content-Type: application/json" \ -d '{"base64": "图片base64编码"}' # 二维码识别 curl -X POST "http://localhost:1224/api/qrcode" \ -H "Content-Type: application/json" \ -d '{"base64": "二维码图片base64编码"}'

详细的API文档可以在docs/http/README.md中查看。