当前位置：首页 > news >正文

AutoGLM-Phone-9B保姆级部署教程：双4090显卡3步快速启动

news 2026/7/5 18:10:02

AutoGLM-Phone-9B保姆级部署教程：双4090显卡3步快速启动

想体验一个能看懂图片、听懂语音、还能跟你聊天的AI助手，但又担心它太“笨重”，跑不动？今天要介绍的AutoGLM-Phone-9B，就是专门为解决这个问题而生的。它把强大的多模态能力，塞进了一个为移动和边缘设备优化的“小身板”里。

你可能听说过动辄几百亿参数的大模型，部署起来对硬件要求极高。而AutoGLM-Phone-9B只有90亿参数，经过精心优化，目标就是能在资源有限的设备上高效运行。不过，在开发测试阶段，为了获得最佳性能和体验，我们仍然需要强劲的算力支持。本教程将手把手教你，如何在拥有双NVIDIA RTX 4090显卡的服务器上，用最简单的三步，快速启动并验证这个强大的多模态模型。

无论你是想为智能硬件集成AI能力，还是探索边缘AI应用，这篇教程都能帮你快速搭建起实验环境。我们废话不多说，直接开始。

1. 准备工作：认识你的“装备”

在开始安装部署之前，我们先花一分钟了解一下AutoGLM-Phone-9B到底是什么，以及我们需要准备什么样的“战场”。

1.1 AutoGLM-Phone-9B是什么？

简单来说，AutoGLM-Phone-9B是一个“全能型”的轻量级AI模型。它的核心能力可以用一句话概括：能看、能听、能说、能想。

能看（视觉）：你可以给它一张图片，它能描述图片内容、识别图中的文字（OCR）、或者回答关于图片的问题。
能听（语音）：它集成了语音识别模块，可以直接处理你的语音输入，转换成文字再理解。
能说（文本）：它本质上是一个大语言模型，可以用自然语言流畅地与你对话、回答问题、生成文本。
能想（多模态融合）：它的真正强大之处在于，能把看到的、听到的和读到的信息融合在一起理解。比如，你上传一张仪表盘的照片并问：“当前压力值正常吗？”，它能结合视觉识别出的读数和你文本中的问题，给出综合判断。

这个模型基于知名的GLM架构打造，但团队对它进行了“瘦身”和“优化”，将参数量控制在90亿，并采用了模块化设计，使得它在保持不错能力的同时，对计算和内存的需求大大降低。

1.2 硬件与环境清单

为了顺利运行本教程，你需要准备好以下环境。别担心，大部分复杂的依赖都已经在提供的镜像中预装好了。

硬件要求（关键！）：

GPU：至少需要2块 NVIDIA GeForce RTX 4090显卡。这是因为模型在推理时会使用“张量并行”技术，将计算负载分摊到两块显卡上，每块卡需要约20GB以上的显存来加载量化后的模型。如果只有一块卡，很可能会因为显存不足而启动失败。
内存：建议系统内存（RAM）不小于64GB。
存储：预留至少50GB的可用磁盘空间用于模型文件。

软件环境：

你已经拉取并启动了包含AutoGLM-Phone-9B的特定Docker镜像。
镜像内已预置了Python 3.10+、CUDA 12.1、以及所有必要的深度学习库（如vLLM, transformers等）。
你将在一个集成了Jupyter Lab的Web界面中完成所有操作，无需在命令行中复杂配置。

确认你的环境符合上述要求后，我们就可以进入激动人心的部署环节了。

2. 三步启动模型服务

整个过程非常直接，我们只需要执行三个命令。请打开你的终端（在Jupyter Lab中通常可以通过“File” -> “New” -> “Terminal”打开）。

2.1 第一步：定位启动脚本

首先，我们需要切换到存放服务启动脚本的目录。这个脚本已经由镜像提供方准备好了。

在终端中输入并执行以下命令：

cd /usr/local/bin

执行后，终端提示符的路径应该会变更为/usr/local/bin。你可以用pwd命令确认一下。这个目录下应该有一个名为run_autoglm_server.sh的脚本文件，我们可以用ls命令查看。

2.2 第二步：一键启动服务

接下来，就是启动模型服务的关键一步。运行以下命令：

sh run_autoglm_server.sh

当你按下回车后，终端会开始输出大量日志。这个过程可能会持续2到5分钟，因为系统需要：

从指定路径加载庞大的模型文件。
将模型按“张量并行”策略分配到两块4090显卡上。
初始化推理引擎和FastAPI网络服务。

如何判断启动成功？你需要耐心等待日志输出，直到看到类似下面的关键成功信息：

[INFO] Starting AutoGLM-Phone-9B server... [INFO] Loading model from /models/autoglm-phone-9b-qint8/ [INFO] Using tensor parallelism: 2 (2x RTX 4090) [INFO] Initializing FastAPI app on port 8000 [SUCCESS] Model loaded successfully. Server running at http://0.0.0.0:8000

当你看到[SUCCESS] Model loaded successfully这一行时，恭喜你！模型服务已经在后台正常运行了。它现在正在监听本机的8000端口，等待我们的调用。

重要提示：这个终端窗口需要保持打开状态，以维持服务运行。你可以将其最小化，但不要关闭。

2.3 第三步：验证服务是否就绪

服务启动后，我们最好快速验证一下它是否真的在正常工作。一个简单的方法是检查8000端口是否被监听。

打开一个新的终端窗口（在Jupyter Lab中再开一个Terminal），运行：

curl -I http://localhost:8000/docs

如果返回的状态码是200 OK，或者你看到了一个关于连接被拒绝的错误（这可能是服务内部路由设置，不对外提供根路径），但能确认端口是开放的，都说明服务进程已在运行。更可靠的验证方式是我们接下来要做的——直接调用它。

3. 编写你的第一个调用程序

服务跑起来了，现在让我们写一段简单的Python代码，像跟一个Web API对话一样，去问问这个模型“你是谁？”。

3.1 创建Python笔记本

回到Jupyter Lab的主界面，点击“新建”（New）按钮，选择“Python 3 (ipykernel)”来创建一个新的Notebook。这给我们提供了一个交互式的编程环境。

3.2 输入并运行测试代码

在新的代码单元格（Cell）中，粘贴以下代码。请注意，你需要修改一个地方：

from langchain_openai import ChatOpenAI # 初始化客户端，指向我们本地启动的模型服务 chat_model = ChatOpenAI( model="autoglm-phone-9b", # 指定模型名称 temperature=0.5, # 控制回答的随机性，0.0最确定，1.0最随机 base_url="http://localhost:8000/v1", # ！！！重点：修改为你的服务地址！！！ api_key="EMPTY", # 因为是本地服务，不需要真正的API Key extra_body={ "enable_thinking": True, # 启用思维链，让模型展示思考过程（如果支持） "return_reasoning": True, # 要求返回推理过程（如果支持） }, streaming=True, # 启用流式输出，可以实时看到生成内容 ) # 发起一次调用 response = chat_model.invoke("你是谁？") print(response.content)

关键修改点：base_url默认的base_url是"http://localhost:8000/v1"。这在你当前Jupyter Lab环境与模型服务运行在同一容器内时是正确的。如果遇到连接问题，请确认：

模型服务日志中显示的IP和端口（通常是0.0.0.0:8000）。
确保Jupyter Lab的访问地址端口与服务端口不冲突。如果服务地址不同，请将localhost替换为正确的IP。

3.3 查看运行结果

点击单元格上方的“运行”按钮（或按Shift+Enter）。代码会开始执行，并向我们刚启动的模型服务发送请求。

如果一切顺利，几秒到十几秒后，你会在单元格下方看到模型的回答，内容大致如下：

我是AutoGLM-Phone-9B，一个专为移动和边缘计算场景优化的多模态大语言模型。我基于GLM架构，拥有90亿参数，能够处理和理解文本、图像以及语音信息。我的设计目标是高效、轻量，适合部署在资源受限的设备上，为智能助手、工业视觉、即时翻译等应用提供AI能力。

看到这个回答，就证明你的AutoGLM-Phone-9B模型已经部署成功，并且可以正常交互了！

4. 进阶尝试与问题排查

成功打出“Hello World”之后，你可以尝试更多有趣的操作。

4.1 尝试多模态调用

AutoGLM-Phone-9B支持多模态。虽然通过简单的langchain_openai接口直接上传图像或音频可能需要额外封装，但你可以查阅模型的官方文档或示例，学习如何使用其特定的API端点来上传文件并进行图文对话或语音交互。

4.2 常见问题与解决

在部署过程中，你可能会遇到一两个小麻烦，这里提供一些排查思路：

问题：执行sh run_autoglm_server.sh后很快报错退出。
- 排查1：显卡驱动与CUDA。确保你的宿主机显卡驱动版本足够新，并且镜像内的CUDA版本与之兼容。日志中通常会有相关错误提示。
- 排查2：显存不足（OOM）。这是最常见的问题。请务必确认你有两块及以上的RTX 4090显卡，并且没有其他进程占用大量显存。可以通过nvidia-smi命令查看显卡状态和显存使用情况。
- 排查3：端口占用。如果8000端口已被其他程序占用，服务会启动失败。可以尝试修改启动脚本中的端口号，或者停止占用端口的程序。
问题：Python代码调用时连接被拒绝或超时。
- 排查1：服务是否真的在运行？回到启动服务的终端窗口，确认没有报错，并且有[SUCCESS]日志。
- 排查2：base_url是否正确？这是最容易出错的地方。确保地址、端口和路径（/v1）完全正确。如果服务运行在容器内，而Jupyter从外部访问，可能需要使用宿主机的IP地址。
- 排查3：防火墙/网络策略。在某些云服务器或严格配置的环境下，可能需要放行8000端口的入站流量。
问题：模型响应速度很慢。
- 解释：首次请求时，模型需要做一系列初始化工作，可能会比较慢（几十秒）。后续的请求会快很多。如果持续很慢，可以检查GPU使用率是否达到瓶颈。