当前位置：首页 > news >正文

GLM-OCR环境部署保姆级教程：Ubuntu系统配置与依赖安装

news 2026/4/14 7:37:37

GLM-OCR环境部署保姆级教程：Ubuntu系统配置与依赖安装

你是不是也遇到过这种情况：手头有一堆图片文档需要识别成文字，手动录入费时费力，网上找的在线工具要么收费，要么识别不准，还担心数据安全。自己部署一个OCR工具听起来是个好主意，但一想到要折腾环境、安装各种依赖，头就大了。

别担心，今天这篇教程就是为你准备的。我会手把手带你，在Ubuntu系统上把GLM-OCR这个强大的开源OCR模型给跑起来。整个过程就像搭积木，跟着步骤走，从检查系统环境到最终运行起来，每一步都给你讲清楚。就算你之前没怎么接触过服务器运维，也能搞定。

1. 部署前，先看看你的“地基”稳不稳

在开始安装任何软件之前，检查系统环境是至关重要的一步。这就好比盖房子前要先勘探地质，地基不稳，房子盖得再漂亮也白搭。对于GLM-OCR这种依赖GPU加速的模型，准备工作尤其重要。

1.1 确认你的Ubuntu版本

首先，我们得知道自己在哪个“版本”的战场上。打开终端，输入下面这条命令：

lsb_release -a

你会看到类似这样的输出：

No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 22.04.3 LTS Release: 22.04 Codename: jammy

这里的关键是Release: 22.04。这篇教程主要基于Ubuntu 20.04 或 22.04 LTS版本进行，这是目前最稳定、社区支持最完善的长期支持版。如果你的系统版本太老（比如18.04），可能会遇到一些依赖库版本冲突的问题，建议先考虑升级系统。

1.2 检查GPU驱动（关键步骤！）

GLM-OCR的模型推理部分严重依赖GPU来加速，没有正确的驱动，你的高端显卡就跟一块砖头没区别。检查驱动是否安装正确，用这个命令：

nvidia-smi

如果安装正确，你会看到一个漂亮的表格，显示你的GPU型号、驱动版本、CUDA版本以及当前的GPU使用情况。这就像给显卡做了个“体检”，一切正常才能继续。

如果你看到的是command not found，那说明NVIDIA驱动还没装。别慌，对于Ubuntu 22.04，可以通过系统自带的“附加驱动”工具来安装，或者使用官方的.run安装包。这一步稍微有点繁琐，但网上教程很多，搜一下“Ubuntu 安装 Nvidia 驱动”就能找到。

一个小提示：安装完驱动后，一定要重启系统，否则驱动可能不会生效。

1.3 安装基础的系统工具

有些工具在后续步骤中会用到，我们先一次性装好。打开终端，执行：

sudo apt update && sudo apt upgrade -y sudo apt install -y wget curl git vim build-essential software-properties-common

wget,curl: 从网上下载文件的工具。
git: 版本控制工具，用来克隆代码仓库。
vim: 一个文本编辑器，方便你修改配置文件（如果你习惯用nano也可以）。
build-essential: 包含编译软件所需的基础工具，比如gcc,make。
software-properties-common: 方便你添加和管理软件源。

2. 搭建Python环境：给模型一个舒适的“家”

GLM-OCR是用Python写的，所以我们需要一个合适的Python环境。我强烈推荐使用conda或venv来创建独立的虚拟环境，这样可以避免和你系统里已有的其他Python项目产生依赖冲突。

2.1 安装Miniconda（推荐方法）

Miniconda是Anaconda的轻量版，只包含conda和Python，足够我们使用。去Miniconda官网找到对应你系统架构（通常是x86_64）的Linux安装脚本，然后用wget下载并安装。

# 下载安装脚本（以Linux 64位为例） wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh # 运行安装脚本 bash Miniconda3-latest-Linux-x86_64.sh

安装过程中，一直按回车阅读许可协议，输入yes同意，然后建议将conda初始化到你的bash配置文件中（安装程序会问你是否执行conda init，选yes）。安装完成后，关闭当前终端，重新打开一个新的终端窗口，这样conda命令才会生效。

验证安装：

conda --version

2.2 创建并激活专属的虚拟环境

现在，我们为GLM-OCR创建一个干净的房间：

# 创建一个名为 glm-ocr，Python版本为3.9的环境 conda create -n glm-ocr python=3.9 -y # 激活这个环境 conda activate glm-ocr

激活后，你会发现命令行提示符前面多了个(glm-ocr)，这表示你已经在这个虚拟环境里了，接下来所有操作都不会影响系统其他部分。

3. 安装核心依赖：模型的“食物”和“水”

环境准备好了，该给模型安装它运行所必需的“营养”了。这里主要包括深度学习框架和图像处理库。

3.1 安装PyTorch及其视觉库

PyTorch是GLM-OCR的底层引擎。去PyTorch官网可以根据你的CUDA版本生成安装命令。之前运行nvidia-smi时，表格顶部就有CUDA版本信息（例如CUDA Version: 12.1）。

假设你的CUDA版本是11.8，安装命令如下：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

如果没有GPU或CUDA，就用CPU版本（速度会慢很多）：

pip install torch torchvision torchaudio

3.2 安装OpenCV

OpenCV是计算机视觉的“瑞士军刀”，用于读取和处理图片。

pip install opencv-python opencv-python-headless

opencv-python-headless是一个没有GUI功能的版本，在服务器环境下更轻量。

3.3 安装其他必要的Python包

GLM-OCR还需要一些帮手：

pip install Pillow numpy tqdm

Pillow: Python里处理图片的另一个强大库。
numpy: 科学计算的基础，处理数组数据。
tqdm: 用来在命令行显示漂亮的进度条，让你知道安装或处理进行到哪了。

4. 获取GLM-OCR模型与代码

依赖装好了，现在把主角请上场。我们需要获取模型的代码和预训练好的权重文件。

4.1 克隆代码仓库

使用git把GLM-OCR的代码从托管平台（如GitHub）克隆到本地：

# 假设项目仓库地址如下（请替换为实际地址） git clone https://github.com/THUDM/GLM-OCR.git cd GLM-OCR

注意：实际的仓库地址可能需要你去GLM-OCR的项目主页查找。如果遇到网络问题，可以尝试配置git代理或者使用国内镜像源。

4.2 安装项目自身的依赖

进入项目目录后，通常会发现一个叫requirements.txt的文件，里面列出了这个项目运行所需的所有Python包。我们用pip一次性安装：

pip install -r requirements.txt

这一步可能会花点时间，因为要下载和编译一些包。如果某个包安装特别慢或失败，可以考虑临时切换pip源到国内镜像，比如清华源：

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

4.3 下载预训练模型权重

深度学习模型的核心是它的“权重”参数。作者通常会提供训练好的权重文件供我们直接使用。查看项目的README.md文件，里面一般会提供模型权重的下载链接（可能是网盘链接或HTTP链接）。

使用wget或curl下载到项目指定的目录（通常是checkpoints/或pretrained/）：

# 创建模型权重存放目录 mkdir -p checkpoints cd checkpoints # 使用wget下载（链接需要替换成真实的） wget https://example.com/path/to/glm-ocr-model.pth cd ..

5. 运行你的第一个OCR识别

最激动人心的时刻来了！让我们用几行代码测试一下环境是否完全正确。

在项目根目录下，创建一个简单的测试脚本，比如叫test_ocr.py：

import sys sys.path.append('.') # 确保可以导入项目内的模块 from inference import GLMOCR # 假设主推理类叫这个，根据实际代码调整 import cv2 # 1. 初始化模型 # 指定你下载的权重文件路径 model_path = './checkpoints/glm-ocr-model.pth' ocr_engine = GLMOCR(model_path) # 2. 准备一张测试图片 # 你可以放一张包含文字的图片在项目根目录，命名为 test.jpg image_path = 'test.jpg' image = cv2.imread(image_path) if image is None: print(f"错误：无法读取图片 {image_path}，请检查路径。") else: # 3. 执行OCR识别 results = ocr_engine.recognize(image) # 4. 打印结果 print("识别结果：") for box, text, confidence in results: print(f"文本: '{text}'， 置信度: {confidence:.2f}")

运行这个脚本：

python test_ocr.py

如果一切顺利，你将在终端看到图片中的文字被识别出来，并附带一个置信度分数。恭喜你，你的GLM-OCR环境已经成功部署并运行起来了！

6. 可能遇到的“坑”及解决方法

部署过程很少一帆风顺，这里列举几个常见问题，帮你提前排雷。

6.1 权限问题

症状：安装包或运行脚本时提示Permission denied。
解决：
- 安装系统包时记得加sudo。
- 对于项目目录下的文件，确保当前用户有读写权限。可以用chmod命令修改权限。

6.2 网络与依赖下载慢

症状：pip install或git clone速度极慢，甚至超时。
解决：
- pip换源：使用-i参数指定国内镜像源，如清华源、阿里云源。
- conda换源：修改~/.condarc配置文件。
- git配置代理：如果你有可用的网络代理，可以为git配置。

6.3 CUDA与PyTorch版本不匹配

症状：导入torch后，torch.cuda.is_available()返回False，或者直接报CUDA错误。
解决：
- 确认nvidia-smi显示的CUDA版本与安装PyTorch时指定的版本一致。
- 去PyTorch官网，用他们提供的命令生成器重新生成安装命令。
- 有时候需要重启系统才能使驱动和CUDA环境生效。

6.4 缺少系统库

症状：安装某些Python包（尤其是包含C/C++扩展的，如opencv-python）时编译失败，提示找不到libXXX.so文件。
解决：
- 这是缺少对应的系统开发库。用apt搜索并安装。例如，常见的错误是缺少libgl1，可以尝试：
```
sudo apt install -y libgl1-mesa-glx
```
- 根据错误信息，搜索缺失的.so文件对应哪个Ubuntu包，然后安装它。