当前位置：首页 > news >正文

MiniCPM-V-2_6 Gradio WebUI搭建教程：三分钟上线可视化演示界面

news 2026/7/6 6:52:29

MiniCPM-V-2_6 Gradio WebUI搭建教程：三分钟上线可视化演示界面

1. 引言：为什么需要可视化界面？

如果你已经用Ollama部署了MiniCPM-V-2_6模型，可能会发现一个问题：每次使用都需要在命令行里输入指令，既不方便也不直观。特别是当你想要展示给同事或客户看时，一个美观的网页界面会显得专业很多。

这就是Gradio的用武之地——它能在短短几分钟内，为你创建一个功能完整的Web界面，让你通过简单的点击和拖拽就能使用这个强大的多模态模型。

学习目标：通过本教程，你将学会如何为MiniCPM-V-2_6搭建一个可视化演示界面，无需前端开发经验，三分钟就能上线。

前置准备：

已经安装并运行Ollama版的MiniCPM-V-2_6
基本的Python环境（3.8+版本）
网络连接（用于安装必要的库）

2. 环境准备与安装

2.1 安装必要的Python库

打开你的终端或命令提示符，输入以下命令：

pip install gradio requests Pillow

这三个库的作用分别是：

gradio：创建Web界面的核心工具
requests：与Ollama服务进行通信
Pillow：处理图片上传和格式转换

2.2 验证Ollama服务

确保你的Ollama服务正在运行，可以通过以下命令检查：

curl http://localhost:11434/api/tags

如果返回了模型信息，说明服务正常运行。

3. 创建Gradio Web界面

3.1 编写核心代码

创建一个名为minicpm_webui.py的文件，然后复制以下代码：

import gradio as gr import requests import json from PIL import Image import io import base64 # Ollama服务的地址 OLLAMA_URL = "http://localhost:11434" def encode_image_to_base64(image): """将图片转换为base64格式""" buffered = io.BytesIO() image.save(buffered, format="JPEG") return base64.b64encode(buffered.getvalue()).decode('utf-8') def minicpm_v_chat(image, question): """与MiniCPM-V模型对话""" if image is None: return "请先上传一张图片" try: # 准备请求数据 base64_image = encode_image_to_base64(image) payload = { "model": "minicpm-v:8b", "messages": [ { "role": "user", "content": [ {"type": "text", "text": question}, {"type": "image", "image": base64_image} ] } ], "stream": False } # 发送请求到Ollama response = requests.post( f"{OLLAMA_URL}/api/chat", json=payload, timeout=60 ) if response.status_code == 200: result = response.json() return result['message']['content'] else: return f"请求失败: {response.status_code}" except Exception as e: return f"发生错误: {str(e)}" # 创建Gradio界面 with gr.Blocks(title="MiniCPM-V-2.6 演示界面") as demo: gr.Markdown("# 🖼️ MiniCPM-V-2.6 可视化演示界面") gr.Markdown("上传图片并提问，体验多模态AI的强大能力") with gr.Row(): with gr.Column(): image_input = gr.Image(label="上传图片", type="pil") question_input = gr.Textbox( label="输入问题", placeholder="例如：描述这张图片的内容...", lines=2 ) submit_btn = gr.Button("发送提问", variant="primary") with gr.Column(): output_text = gr.Textbox( label="模型回复", lines=10, interactive=False ) # 设置提交动作 submit_btn.click( fn=minicpm_v_chat, inputs=[image_input, question_input], outputs=output_text ) # 回车键也可以提交 question_input.submit( fn=minicpm_v_chat, inputs=[image_input, question_input], outputs=output_text ) # 启动服务 if __name__ == "__main__": demo.launch( server_name="0.0.0.0", server_port=7860, share=False )

3.2 代码说明

这段代码做了以下几件事：

图片处理：将上传的图片转换为base64格式，这是Ollama API需要的格式
API通信：通过HTTP请求与本地Ollama服务交互
界面构建：创建了一个包含图片上传、文字输入和结果显示的Web界面
错误处理：添加了基本的错误捕获，让界面更加友好

4. 启动和使用Web界面

4.1 启动服务

在终端中运行你的Python脚本：

python minicpm_webui.py

你会看到类似这样的输出：

Running on local URL: http://0.0.0.0:7860

4.2 访问界面

打开浏览器，访问http://localhost:7860，就能看到你创建的界面了。

4.3 使用演示

现在来试试这个界面的功能：

上传图片：点击图片区域，选择一张本地图片
输入问题：在文本框中输入你的问题，比如：
- "描述这张图片的内容"
- "图片中有几个人？"
- "这是什么地方？"
获取回答：点击"发送提问"或按回车键，稍等片刻就能看到模型的回复

实用技巧：

可以尝试不同角度的问题，体验模型的多方面能力
如果响应较慢，可以适当减小图片尺寸
支持连续对话，可以基于上一个回答继续提问

5. 进阶功能与自定义

5.1 添加多图片支持

MiniCPM-V-2_6支持多图片对话，你可以修改代码来支持这个功能：

def minicpm_v_multi_chat(images, question): """支持多图片的对话函数""" if not images: return "请至少上传一张图片" image_contents = [] for img in images: if img is not None: base64_image = encode_image_to_base64(img) image_contents.append({"type": "image", "image": base64_image}) # 在问题前添加图片内容 image_contents.append({"type": "text", "text": question}) payload = { "model": "minicpm-v:8b", "messages": [{"role": "user", "content": image_contents}], "stream": False } # 其余代码类似...

5.2 界面美化

Gradio提供了丰富的自定义选项，你可以：

# 更改主题 demo = gr.Blocks(theme=gr.themes.Soft()) # 添加示例图片 gr.Examples( examples=[["example1.jpg", "描述这张图片"], ["example2.jpg", "这是什么动物？"]], inputs=[image_input, question_input] )