当前位置：首页 > news >正文

使用YOLOv5与千问3.5-9B构建多模态问答系统

news 2026/4/28 8:08:44

使用YOLOv5与千问3.5-9B构建多模态问答系统

1. 引言：当计算机视觉遇上语言模型

想象这样一个场景：你拍了一张超市货架的照片，系统不仅能识别出上面的商品，还能回答"最左边的饮料是什么品牌"、"哪种零食的热量最低"这类复杂问题。这就是我们要实现的多模态问答系统——让AI同时具备"看"和"说"的能力。

传统方案往往需要定制开发复杂的规则系统，而今天我们采用更智能的方法：用YOLOv5实现精准的物体检测，将视觉信息转化为文本描述后，交给千问3.5-9B这样的语言模型进行推理回答。这种组合既保留了计算机视觉的准确性，又发挥了语言模型的强大理解能力。

2. 系统架构设计

2.1 整体工作流程

这套系统的核心思路非常直观：

视觉感知层：YOLOv5模型分析输入图像，识别物体类别和位置
信息转换层：将检测结果转化为自然语言描述
推理回答层：千问3.5-9B根据视觉描述和用户问题生成答案

2.2 为什么选择YOLOv5+千问3.5-9B

YOLOv5作为当前最流行的目标检测框架之一，具有以下优势：

轻量高效：能在普通GPU上实时运行
准确度高：COCO数据集上mAP达到50以上
易部署：提供完善的PyTorch实现和预训练模型

而千问3.5-9B作为70亿参数的大语言模型：

理解能力强：能处理复杂的语义推理
上下文记忆：可保持多轮对话一致性
知识丰富：内置大量常识和专业知识

3. 关键技术实现

3.1 物体检测模块搭建

首先安装YOLOv5并加载预训练模型：

import torch # 加载预训练模型 (COCO数据集) model = torch.hub.load('ultralytics/yolov5', 'yolov5s', pretrained=True) # 设置推理参数 model.conf = 0.25 # 置信度阈值 model.iou = 0.45 # IoU阈值

进行图像检测并获取结果：

results = model('supermarket.jpg') detections = results.pandas().xyxy[0] # 转换为DataFrame格式

3.2 视觉信息文本化

将检测结果转化为自然语言描述是关键一步。我们设计了一套描述模板：

def generate_description(detections): descriptions = [] for _, row in detections.iterrows(): desc = f"{row['name']} (置信度:{row['confidence']:.2f}), " \ f"位置:左{row['xmin']:.0f}上{row['ymin']:.0f}到右{row['xmax']:.0f}下{row['ymax']:.0f}" descriptions.append(desc) return "图像中包含: " + "; ".join(descriptions) visual_context = generate_description(detections)

示例输出：

图像中包含: bottle (置信度:0.92), 位置:左120上50到右180下300; apple (置信度:0.85), 位置:左200上80到右240下150

3.3 问答系统集成

将视觉上下文与用户问题结合，构造给语言模型的提示词：

def build_prompt(question, visual_context): return f"""你是一个视觉问答助手，请根据以下图像描述回答问题。 图像内容: {visual_context} 问题: {question} 请直接给出答案，保持简洁专业:"""

调用千问3.5-9B生成回答：

from transformers import AutoModelForCausalLM, AutoTokenizer model_path = "Qwen/Qwen1.5-7B-Chat" tokenizer = AutoTokenizer.from_pretrained(model_path) model = AutoModelForCausalLM.from_pretrained(model_path) question = "最左边的饮料是什么品牌?" inputs = tokenizer(build_prompt(question, visual_context), return_tensors="pt") outputs = model.generate(**inputs, max_new_tokens=100) answer = tokenizer.decode(outputs[0], skip_special_tokens=True)