当前位置：首页 > news >正文

GLM-4v-9B快速上手：如何用一张图片让AI生成详细描述？

news 2026/3/27 4:36:13

GLM-4v-9B快速上手：如何用一张图片让AI生成详细描述？

1. 准备工作

1.1 了解GLM-4v-9B模型

GLM-4v-9B是智谱AI于2024年开源的90亿参数视觉-语言多模态模型，它能同时理解文本与图片，支持中英双语多轮对话。在1120×1120高分辨率输入下，该模型在图像描述、视觉问答、图表理解等任务中表现优异。

模型特点：

原生支持1120×1120高分辨率输入
中英文多轮对话能力
单张RTX 4090显卡即可运行
在OCR与图表理解任务中表现突出

1.2 环境准备

要使用GLM-4v-9B模型，你需要准备：

Python 3.8或更高版本
PyTorch 2.0或更高版本
transformers库（版本≥4.44.0）
一张至少24GB显存的GPU（如RTX 4090）

安装依赖：

pip install torch transformers pillow

2. 快速部署与使用

2.1 加载模型

首先，我们需要加载GLM-4v-9B模型和对应的tokenizer：

import torch from PIL import Image from transformers import AutoModelForCausalLM, AutoTokenizer device = "cuda" if torch.cuda.is_available() else "cpu" # 加载tokenizer和模型 tokenizer = AutoTokenizer.from_pretrained("THUDM/glm-4v-9b", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( "THUDM/glm-4v-9b", torch_dtype=torch.bfloat16, low_cpu_mem_usage=True, trust_remote_code=True ).to(device).eval()

2.2 准备图片

准备一张你想要让AI描述的图片，可以是：

自然风景
人物照片
图表或数据可视化
商品图片
手绘草图

# 加载图片 image_path = "your_image.jpg" # 替换为你的图片路径 image = Image.open(image_path).convert('RGB')

3. 生成图片描述

3.1 基本描述生成

最简单的使用方式是让AI直接描述图片内容：

query = '描述这张图片' inputs = tokenizer.apply_chat_template( [{"role": "user", "image": image, "content": query}], add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True ).to(device) gen_kwargs = {"max_length": 2500, "do_sample": True, "top_k": 1} with torch.no_grad(): outputs = model.generate(**inputs, **gen_kwargs) outputs = outputs[:, inputs['input_ids'].shape[1]:] print(tokenizer.decode(outputs[0]))

3.2 进阶使用技巧

3.2.1 特定角度描述

你可以引导AI从特定角度描述图片：

queries = [ "详细描述这张图片中的场景", "分析这张图片中的色彩构成", "描述图片中人物的表情和动作", "这张图片传达了什么样的情感", "用诗意的语言描述这张图片" ] for query in queries: inputs = tokenizer.apply_chat_template( [{"role": "user", "image": image, "content": query}], add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True ).to(device) with torch.no_grad(): outputs = model.generate(**inputs, max_length=1000) print(f"问题: {query}") print(f"回答: {tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:])}\n")

3.2.2 多轮对话

GLM-4v-9B支持基于图片的多轮对话：

# 第一轮：基本描述 conversation = [{"role": "user", "image": image, "content": "描述这张图片"}] inputs = tokenizer.apply_chat_template( conversation, add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True ).to(device) with torch.no_grad(): outputs = model.generate(**inputs, max_length=1000) response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:]) print(f"AI: {response}") conversation.append({"role": "assistant", "content": response}) # 第二轮：追问细节 follow_up = "图片左侧的那个物体是什么？" conversation.append({"role": "user", "content": follow_up}) inputs = tokenizer.apply_chat_template( conversation, add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True ).to(device) with torch.no_grad(): outputs = model.generate(**inputs, max_length=1000) print(f"问题: {follow_up}") print(f"回答: {tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:])}")

4. 实际应用案例

4.1 电商商品描述生成

product_image = Image.open("product.jpg").convert('RGB') queries = [ "为这个电商商品生成详细的描述", "列出这个产品的三个主要卖点", "为这个商品写一段吸引人的广告文案" ] for query in queries: inputs = tokenizer.apply_chat_template( [{"role": "user", "image": product_image, "content": query}], add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True ).to(device) with torch.no_grad(): outputs = model.generate(**inputs, max_length=1000) print(f"问题: {query}") print(f"回答: {tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:])}\n")

4.2 图表数据分析

chart_image = Image.open("chart.png").convert('RGB') queries = [ "描述这张图表展示的主要趋势", "提取图表中的关键数据点", "根据这张图表写一段分析报告" ] for query in queries: inputs = tokenizer.apply_chat_template( [{"role": "user", "image": chart_image, "content": query}], add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True ).to(device) with torch.no_grad(): outputs = model.generate(**inputs, max_length=1500) print(f"问题: {query}") print(f"回答: {tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:])}\n")