当前位置：首页 > news >正文

Cosmos-Reason1-7B开源大模型教程：NVIDIA物理AI模型本地化部署指南

news 2026/3/27 7:21:18

Cosmos-Reason1-7B开源大模型教程：NVIDIA物理AI模型本地化部署指南

1. 引言：让机器看懂物理世界

想象一下，你给AI看一张照片，照片里一个杯子放在桌子的边缘。一个普通的AI可能会告诉你：“这是一个杯子。” 但一个具备物理常识的AI会告诉你：“这是一个杯子，它放在桌子边缘，有掉落的危险。”

这就是Cosmos-Reason1-7B要做的事情——它不只是“看到”图像，而是“理解”图像背后的物理世界。

Cosmos-Reason1-7B是NVIDIA开源的一个7B参数的多模态视觉语言模型。简单说，它能看懂图片和视频，然后像人一样进行推理思考。这个模型特别擅长物理常识推理，能判断场景是否安全、预测物体运动、分析机械动作等。

如果你在做机器人、自动驾驶、智能监控，或者任何需要机器理解物理世界的项目，这个模型可能就是你要找的工具。今天，我就带你从零开始，把这个强大的物理AI模型部署到你的本地服务器上，并教你如何使用它的Web界面。

2. 环境准备：部署前的必要检查

在开始部署之前，我们需要确保服务器环境符合要求。这就像盖房子前要打好地基一样重要。

2.1 硬件要求

首先看看你的硬件够不够用：

GPU：这是最重要的。模型需要约11GB的GPU显存
内存：建议至少16GB系统内存
存储：模型文件大约14GB，加上其他依赖，建议预留30GB空间

怎么检查你的GPU显存？打开终端，输入：

nvidia-smi

你会看到类似这样的输出：

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 535.161.07 Driver Version: 535.161.07 CUDA Version: 12.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 NVIDIA RTX 4090 Off | 00000000:01:00.0 Off | Off | | 0% 45C P0 70W / 450W | 1024MiB / 24564MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+

重点看“Memory-Usage”这一列。如果你有11GB以上的可用显存，就可以继续了。

2.2 软件环境

接下来检查软件环境：

操作系统：Ubuntu 20.04或22.04（其他Linux发行版也可以，但本文以Ubuntu为例）
Python版本：Python 3.8或3.9
CUDA版本：CUDA 11.8或12.x

检查Python版本：

python3 --version

检查CUDA版本：

nvcc --version

如果这些条件都满足，我们就可以开始正式的部署了。

3. 一步步部署Cosmos-Reason1-7B

部署过程分为几个步骤，我会带你一步步完成。不用担心，即使你不是Linux专家，跟着做也能成功。

3.1 第一步：安装必要的系统工具

首先更新系统并安装一些基础工具：

# 更新系统包列表 sudo apt update # 安装必要的工具 sudo apt install -y wget curl git python3-pip python3-venv # 安装Supervisor（用于管理服务） sudo apt install -y supervisor

Supervisor是个好东西，它能确保我们的Web服务在服务器重启后自动启动，还能监控服务状态。

3.2 第二步：创建项目目录和虚拟环境

好的文件组织能让后续管理更轻松：

# 创建项目目录 mkdir -p /root/cosmos-reason-webui cd /root/cosmos-reason-webui # 创建Python虚拟环境 python3 -m venv venv # 激活虚拟环境 source venv/bin/activate

看到命令行前面出现(venv)字样，就说明虚拟环境激活成功了。虚拟环境的作用是把项目的Python包隔离起来，避免和其他项目冲突。

3.3 第三步：安装Python依赖包

现在安装模型运行需要的Python包。我建议先升级pip，然后逐个安装主要依赖：

# 升级pip pip install --upgrade pip # 安装PyTorch（根据你的CUDA版本选择） # CUDA 11.8 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 # 或者CUDA 12.1 # pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 # 安装Transformers和加速库 pip install transformers accelerate # 安装Gradio（用于Web界面） pip install gradio # 安装其他必要包 pip install pillow opencv-python-headless

这里有个小技巧：如果网络不好，可以加上清华的镜像源：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -i https://pypi.tuna.tsinghua.edu.cn/simple

3.4 第四步：下载模型文件

模型文件比较大，有几种下载方式。我推荐用Hugging Face的CLI工具，它支持断点续传：

# 安装huggingface-hub pip install huggingface-hub # 创建模型保存目录 mkdir -p /root/ai-models/nv-community # 下载模型（需要登录Hugging Face账号） cd /root/ai-models/nv-community huggingface-cli download nvidia/Cosmos-Reason1-7B --local-dir Cosmos-Reason1-7B

如果下载速度慢，也可以先下载到本地再上传到服务器。模型文件结构大概是这样：

Cosmos-Reason1-7B/ ├── config.json ├── generation_config.json ├── model.safetensors ├── tokenizer.json ├── tokenizer_config.json └── ...

下载完成后，检查一下文件大小：

du -sh /root/ai-models/nv-community/Cosmos-Reason1-7B/

应该显示大约14GB。

3.5 第五步：创建WebUI应用

现在我们来创建Web界面。在项目目录下创建app.py文件：

import gradio as gr import torch from transformers import AutoModelForCausalLM, AutoTokenizer from PIL import Image import cv2 import numpy as np import os import warnings warnings.filterwarnings("ignore") # 模型路径 MODEL_PATH = "/root/ai-models/nv-community/Cosmos-Reason1-7B" class CosmosReasonModel: def __init__(self): self.model = None self.tokenizer = None self.device = "cuda" if torch.cuda.is_available() else "cpu" print(f"使用设备: {self.device}") def load_model(self): """加载模型""" if self.model is not None: return "模型已加载" try: print("开始加载模型...") # 加载tokenizer self.tokenizer = AutoTokenizer.from_pretrained( MODEL_PATH, trust_remote_code=True ) # 加载模型 self.model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True ) self.model.eval() print("模型加载完成!") return "✅ 模型加载成功!" except Exception as e: return f"❌ 模型加载失败: {str(e)}" def process_image(self, image, question): """处理图片推理""" if self.model is None: return "请先加载模型" try: # 准备输入 if isinstance(image, str): image = Image.open(image) # 构建对话 conversation = [ { "role": "user", "content": [ {"type": "image"}, {"type": "text", "text": question} ] } ] # 准备模型输入 inputs = self.tokenizer.apply_chat_template( conversation, add_generation_prompt=True, tokenize=True, return_tensors="pt" ).to(self.device) # 生成回复 with torch.no_grad(): outputs = self.model.generate( inputs, max_new_tokens=512, temperature=0.6, do_sample=True, top_p=0.95 ) # 解码输出 response = self.tokenizer.decode(outputs[0], skip_special_tokens=True) return response except Exception as e: return f"处理失败: {str(e)}" def process_video(self, video_path, question): """处理视频推理""" if self.model is None: return "请先加载模型" try: # 读取视频帧 cap = cv2.VideoCapture(video_path) frames = [] # 采样关键帧（每0.25秒一帧） fps = cap.get(cv2.CAP_PROP_FPS) frame_interval = int(fps * 0.25) frame_count = 0 while True: ret, frame = cap.read() if not ret: break if frame_count % frame_interval == 0: # 转换BGR到RGB frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB) frames.append(Image.fromarray(frame_rgb)) frame_count += 1 cap.release() if not frames: return "无法读取视频帧" # 使用第一帧进行推理（简化示例） return self.process_image(frames[0], question) except Exception as e: return f"视频处理失败: {str(e)}" # 创建模型实例 model_handler = CosmosReasonModel() # 创建Gradio界面 with gr.Blocks(title="Cosmos-Reason1-7B WebUI", theme=gr.themes.Soft()) as demo: gr.Markdown("# 🚀 Cosmos-Reason1-7B 物理AI推理平台") gr.Markdown("NVIDIA开源的多模态物理推理模型，支持图像和视频理解") with gr.Row(): with gr.Column(scale=1): gr.Markdown("## 模型管理") load_btn = gr.Button("🔄 加载模型", variant="primary") load_status = gr.Textbox(label="加载状态", interactive=False) load_btn.click( fn=model_handler.load_model, outputs=load_status ) with gr.Column(scale=2): gr.Markdown("## 使用说明") gr.Markdown(""" 1. 点击"加载模型"按钮初始化模型 2. 选择图像或视频理解标签页 3. 上传文件并输入问题 4. 点击"开始推理"获取结果 **支持的问题类型**: - 场景描述: "描述这张图片中的场景" - 物体识别: "图片中有几个人？" - 物理推理: "这样做安全吗？为什么？" - 动作分析: "描述这个机器人的动作" """) with gr.Tabs(): with gr.TabItem("📷 图像理解"): with gr.Row(): with gr.Column(): image_input = gr.Image(label="上传图片", type="filepath") image_question = gr.Textbox( label="问题描述", placeholder="例如：描述这张图片中的场景", lines=3 ) image_btn = gr.Button("🚀 开始推理", variant="primary") with gr.Column(): image_output = gr.Textbox( label="推理结果", lines=10, interactive=False ) image_btn.click( fn=model_handler.process_image, inputs=[image_input, image_question], outputs=image_output ) with gr.TabItem("🎬 视频理解"): with gr.Row(): with gr.Column(): video_input = gr.Video(label="上传视频") video_question = gr.Textbox( label="问题描述", placeholder="例如：视频中发生了什么？", lines=3 ) video_btn = gr.Button("🚀 开始推理", variant="primary") with gr.Column(): video_output = gr.Textbox( label="推理结果", lines=10, interactive=False ) video_btn.click( fn=model_handler.process_video, inputs=[video_input, video_question], outputs=video_output ) with gr.Accordion("⚙️ 高级设置", open=False): with gr.Row(): temperature = gr.Slider( minimum=0.1, maximum=1.0, value=0.6, step=0.1, label="Temperature" ) top_p = gr.Slider( minimum=0.5, maximum=1.0, value=0.95, step=0.05, label="Top-P" ) max_tokens = gr.Slider( minimum=256, maximum=4096, value=1024, step=256, label="最大生成长度" ) gr.Markdown("---") gr.Markdown("### 💡 使用技巧") gr.Markdown(""" - **具体问题效果更好**: 问"图片中有几个人？"比问"这是什么？"更好 - **多图对比**: 可以上传多张图片进行对比分析 - **视频建议**: 短视频（1分钟内）效果更好，建议4 FPS - **模型输出格式**: 包含思考过程和最终答案 """) # 启动应用 if __name__ == "__main__": demo.launch( server_name="0.0.0.0", server_port=7860, share=False )

这个代码创建了一个完整的Web界面，包含模型加载、图片理解、视频理解三个主要功能。代码已经做了错误处理，使用起来比较稳定。

3.6 第六步：配置Supervisor服务

为了让服务在后台稳定运行，我们需要配置Supervisor。创建配置文件：

sudo nano /etc/supervisor/conf.d/cosmos-reason-webui.conf

添加以下内容：

[program:cosmos-reason-webui] command=/root/cosmos-reason-webui/venv/bin/python /root/cosmos-reason-webui/app.py directory=/root/cosmos-reason-webui user=root autostart=true autorestart=true startsecs=10 stopwaitsecs=10 stdout_logfile=/root/cosmos-reason-webui/cosmos-webui.log stdout_logfile_maxbytes=10MB stdout_logfile_backups=5 stderr_logfile=/root/cosmos-reason-webui/cosmos-webui-error.log stderr_logfile_maxbytes=10MB stderr_logfile_backups=5 environment=PYTHONUNBUFFERED="1"

保存后，重新加载Supervisor配置：

sudo supervisorctl reread sudo supervisorctl update sudo supervisorctl start cosmos-reason-webui

检查服务状态：

sudo supervisorctl status cosmos-reason-webui

如果看到RUNNING状态，说明服务启动成功了。

3.7 第七步：测试Web界面

现在打开浏览器，访问：

http://你的服务器IP:7860

你应该能看到Cosmos-Reason1-7B的Web界面。第一次使用需要点击“加载模型”按钮，等待30-60秒模型加载完成。

4. 使用教程：从入门到精通

部署完成后，我们来学习怎么使用这个强大的物理AI模型。

4.1 第一次使用：加载模型

当你第一次打开Web界面时，会看到这样的界面：

左侧是模型管理区域，有一个大大的“🔄 加载模型”按钮
点击这个按钮，状态会显示“开始加载模型...”
等待30-60秒，直到显示“✅ 模型加载成功！”

如果加载失败，最常见的原因是GPU显存不足。你可以用这个命令查看显存使用情况：

nvidia-smi

如果其他程序占用了显存，可以尝试清理：

# 查看占用GPU的进程 nvidia-smi # 停止jupyter等可能占用GPU的服务 pkill -9 -f jupyter

4.2 图像理解：让AI看懂图片

图像理解是最常用的功能。我们来看几个实际例子：

例子1：场景分析

上传一张办公室照片
输入问题：“描述这张图片中的场景”
点击“开始推理”

模型会输出类似这样的结果：

<thinking> 这是一张办公室的照片。我看到有办公桌、电脑、椅子、书架。桌上有键盘、鼠标、水杯。墙上有时钟。光线来自窗户。有2个人在办公桌前工作。 </thinking> <answer> 这张图片展示了一个现代化的办公室环境。有两名工作人员正在各自的工位上使用电脑办公。办公室配备了标准的办公家具，包括办公桌、旋转椅和储物柜。桌面上摆放着电脑显示器、键盘、鼠标和一个水杯。右侧有书架存放着文件和书籍。墙上挂着一个圆形时钟，显示时间。整个场景光线充足，看起来是一个正常的工作环境。 </answer>

例子2：安全评估

上传一张建筑工地的照片
输入问题：“这个场景是否安全？为什么？”
点击“开始推理”

模型会分析安全因素，比如：“工人没有戴安全帽”、“地面有杂物可能绊倒”等。

使用技巧：

问题越具体，回答越准确
可以上传多张图片进行对比
支持常见图片格式：JPG、PNG、WebP等

4.3 视频理解：分析动态场景

视频理解功能可以分析视频中的动作和事件：

例子：交通场景分析

上传一段路口行车记录仪视频
输入问题：“是否可以安全右转？”
点击“开始推理”

模型会分析视频中的车辆、行人、交通信号，然后给出建议：

<thinking> 视频显示一个十字路口。当前车辆准备右转。左侧有直行车辆通过。右侧人行道有行人等待。交通灯是绿色。需要评估右侧转的安全条件。 </thinking> <answer> 根据视频分析，当前不建议立即右转。原因：1）左侧有直行车辆正在通过路口，右转可能与其路径冲突；2）右侧人行道有行人等待，虽然当前没有行走，但需要确认其意图；3）虽然交通灯是绿色，但右转需要礼让直行车辆和行人。建议等待直行车辆通过，并确认行人不会突然走上人行横道后再进行右转。 </answer>

视频格式建议：

格式：MP4最兼容
帧率：4 FPS效果最好（模型训练时的设置）
时长：1分钟以内的短视频分析效果更好
分辨率：720p或1080p即可，太高会影响处理速度

4.4 高级参数调整

对于大多数用户，默认参数就够用了。但如果你想调整模型的行为，可以修改这些参数：

参数	默认值	作用	建议
Temperature	0.6	控制输出的随机性	值越高回答越多样，值越低回答越确定
Top-P	0.95	核采样参数	通常保持0.9-0.95
最大生成长度	1024	生成文本的最大长度	根据问题复杂度调整

什么时候需要调整参数？

如果回答太啰嗦：降低Temperature到0.4
如果回答太死板：提高Temperature到0.8
如果回答被截断：增加最大生成长度

4.5 模型输出格式解读

Cosmos-Reason1-7B的输出有固定格式，理解这个格式能帮你更好地使用结果：

<thinking> 这里是模型的思考过程 分析图片内容 推理逻辑链 考虑各种可能性 </thinking> <answer> 这里是最终答案 简洁明确的回答 基于思考过程的结论 </answer>

思考过程：展示了模型是如何一步步推理的。这对调试和理解模型很有帮助。

最终答案：基于思考过程得出的结论。在实际应用中，你通常只需要这部分。

5. 实际应用场景

了解了基本用法后，我们来看看这个模型在实际项目中能做什么。

5.1 机器人场景：让机器人更智能

假设你在开发一个家庭服务机器人，Cosmos-Reason1-7B可以帮它：

环境理解：机器人看到客厅，能识别“地上有玩具，需要清理”
安全判断：机器人准备拿水杯，能判断“杯子太满，移动时可能洒出”
任务规划：看到脏桌子，能规划“先拿抹布，再擦桌子，最后清洗抹布”

代码示例：让机器人分析场景安全性

def analyze_kitchen_safety(image_path): """分析厨房安全性""" question = "这个厨房场景有哪些安全隐患？" result = model_handler.process_image(image_path, question) # 解析结果 if "<answer>" in result: answer = result.split("<answer>")[1].split("</answer>")[0] return answer.strip() return result

5.2 自动驾驶：理解复杂交通场景

在自动驾驶系统中，模型可以：

路口分析：判断“行人正在过马路，需要停车等待”
危险预警：识别“前方车辆突然刹车，需要保持距离”
路径规划：分析“右侧车道施工，建议变道至左侧”

5.3 工业检测：发现潜在问题

在工厂环境中：

设备检查：识别“机器漏油，需要维护”
安全监控：发现“工人未戴安全帽，违反安全规定”
流程优化：分析“物料堆放混乱，影响工作效率”

5.4 教育科研：物理实验分析

对于教育应用：

实验指导：分析学生实验操作“试管倾斜角度不正确”
现象解释：解释物理现象“水为什么从高处往低处流”
安全教学：指出实验中的安全隐患“酒精灯太靠近书本”

6. 常见问题与解决方案

在实际使用中，你可能会遇到一些问题。这里我整理了最常见的几个问题和解决方法。

6.1 模型加载失败

问题：点击“加载模型”没反应，或者提示显存不足。

解决方案：

# 1. 检查GPU显存 nvidia-smi # 2. 如果有其他程序占用，停止它们 # 查找占用GPU的进程 fuser -v /dev/nvidia* # 3. 如果显存确实不足，尝试清理缓存 sudo sync && echo 3 | sudo tee /proc/sys/vm/drop_caches # 4. 重启服务 sudo supervisorctl restart cosmos-reason-webui

6.2 Web界面无法访问

问题：浏览器打不开 http://服务器IP:7860

解决方案：

# 1. 检查服务状态 sudo supervisorctl status cosmos-reason-webui # 2. 检查端口是否监听 netstat -tlnp | grep 7860 # 3. 检查防火墙 sudo ufw status # 如果防火墙开启，添加规则 sudo ufw allow 7860 # 4. 查看日志找错误 tail -f /root/cosmos-reason-webui/cosmos-webui.log

6.3 推理速度慢

问题：图片或视频处理时间太长。

解决方案：

优化图片大小：上传前将图片压缩到1024x1024以内
优化视频：使用4 FPS的MP4格式，时长控制在30秒内
使用批处理：如果需要处理大量图片，可以修改代码支持批处理

批处理示例代码：

def batch_process_images(image_paths, questions): """批量处理图片""" results = [] for img_path, question in zip(image_paths, questions): result = model_handler.process_image(img_path, question) results.append(result) return results

6.4 回答质量不高

问题：模型的回答不准确或不相关。

解决方案：

优化问题描述：问题要具体明确
提供上下文：在问题中包含更多背景信息
调整参数：降低Temperature值让回答更确定
多轮对话：通过多次问答引导模型

多轮对话示例：

# 第一轮：基础描述 question1 = "描述这张图片" answer1 = model.process_image(image, question1) # 第二轮：基于第一轮回答的深入问题 question2 = f"基于之前的描述，{answer1} 这个场景有哪些安全隐患？" answer2 = model.process_image(image, question2)

6.5 服务管理命令汇总

日常维护时，这些命令会很有用：

# 查看服务状态 sudo supervisorctl status cosmos-reason-webui # 重启服务（修改代码后） sudo supervisorctl restart cosmos-reason-webui # 停止服务 sudo supervisorctl stop cosmos-reason-webui # 启动服务 sudo supervisorctl start cosmos-reason-webui # 查看实时日志 tail -f /root/cosmos-reason-webui/cosmos-webui.log # 查看错误日志 tail -f /root/cosmos-reason-webui/cosmos-webui-error.log # 重新加载配置（修改Supervisor配置后） sudo supervisorctl reread sudo supervisorctl update

7. 性能优化与进阶技巧

当你熟悉基本使用后，可以尝试这些优化技巧，让模型运行更快、效果更好。

7.1 显存优化技巧

如果GPU显存紧张，可以尝试这些方法：

方法1：使用8-bit量化

from transformers import BitsAndBytesConfig import torch # 配置8-bit量化 bnb_config = BitsAndBytesConfig( load_in_8bit=True, bnb_8bit_compute_dtype=torch.float16 ) # 加载量化模型 model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, quantization_config=bnb_config, device_map="auto", trust_remote_code=True )

方法2：使用4-bit量化（更省显存）

bnb_config = BitsAndBytesConfig( load_in_4bit=True, bnb_4bit_compute_dtype=torch.float16, bnb_4bit_use_double_quant=True )

方法3：CPU卸载（显存非常紧张时）

# 将部分层卸载到CPU model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, device_map="auto", offload_folder="offload", offload_state_dict=True, torch_dtype=torch.float16 )

7.2 推理速度优化

技巧1：启用Flash Attention

# 安装flash-attn pip install flash-attn --no-build-isolation # 在代码中启用 model = AutoModelForCausalLM.from_pretrained( MODEL_PATH, torch_dtype=torch.float16, device_map="auto", use_flash_attention_2=True # 启用Flash Attention )

技巧2：批处理推理

def batch_inference(images, questions): """批量推理，提高效率""" # 预处理所有图片 processed_images = [preprocess_image(img) for img in images] # 批量编码 inputs = tokenizer( questions, images=processed_images, return_tensors="pt", padding=True ).to(device) # 批量生成 with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=512) # 解码所有结果 results = tokenizer.batch_decode(outputs, skip_special_tokens=True) return results

技巧3：缓存优化

# 启用KV缓存 @torch.no_grad() def generate_with_cache(prompt, image, max_length=512): inputs = prepare_inputs(prompt, image) # 第一次生成时创建缓存 past_key_values = None for i in range(max_length): if past_key_values: # 使用缓存，只传入新的token outputs = model( input_ids=inputs["input_ids"][:, -1:], past_key_values=past_key_values, use_cache=True ) else: # 第一次运行 outputs = model(**inputs, use_cache=True) past_key_values = outputs.past_key_values # ... 生成下一个token

7.3 提示工程技巧

好的提示词能让模型表现更好：

技巧1：具体化问题

❌ 不好：“这是什么？”
✅ 好：“图片中有几个人？他们在做什么？场景是否安全？”

技巧2：提供上下文

# 不好的提示 question = "安全吗？" # 好的提示 question = """你是一个安全监控AI。请分析这个工业场景： 1. 识别所有人员 2. 检查他们的安全装备 3. 评估现场安全隐患 4. 给出安全建议 场景安全吗？为什么？"""

技巧3：使用思维链提示

question = """请按步骤分析： 1. 首先描述图片中的物体和人物 2. 然后分析他们之间的空间关系 3. 接着评估物理安全性 4. 最后给出结论和建议 图片中的场景安全吗？"""

7.4 集成到现有系统

如果你想把Cosmos-Reason1-7B集成到自己的系统中，可以参考这个架构：

class CosmosIntegration: def __init__(self, model_path): self.model = self.load_model(model_path) self.tokenizer = self.load_tokenizer(model_path) def load_model(self, path): """加载模型""" model = AutoModelForCausalLM.from_pretrained( path, torch_dtype=torch.float16, device_map="auto" ) return model def process_request(self, request): """处理API请求""" # 解析请求 image_data = request.get("image") question = request.get("question") options = request.get("options", {}) # 预处理 image = self.preprocess_image(image_data) # 推理 result = self.inference(image, question, options) # 后处理 formatted_result = self.postprocess(result) return formatted_result def batch_process(self, requests): """批量处理请求""" results = [] for req in requests: result = self.process_request(req) results.append(result) return results def streaming_response(self, image, question): """流式响应（逐词生成）""" inputs = self.prepare_inputs(image, question) for token in self.model.generate_stream(**inputs): yield token