当前位置：首页 > news >正文

YOLOE镜像快速体验：无需训练，直接检测自定义类别（附示例图）

news 2026/3/26 23:42:21

YOLOE镜像快速体验：无需训练，直接检测自定义类别（附示例图）

想用AI模型检测图片里的东西，但不想花时间训练模型？或者想检测的物体类别，模型压根没学过？今天要介绍的YOLOE镜像，就是为你准备的“开箱即用”神器。它最大的魅力在于，你不需要准备任何训练数据，也不需要漫长的训练过程，只需要告诉它你想找什么（比如“消防栓”、“无人机”、“红色跑车”），它就能在图片里帮你找出来。

这听起来是不是有点像给模型“下指令”？没错，这就是YOLOE支持的“文本提示”功能。我们这次体验的YOLOE官版镜像，已经预装好了所有环境，你只需要跑几行简单的命令，就能立刻体验到这种“指哪打哪”的开放词汇检测能力。下面，我就带你一步步上手，看看如何用这个镜像，零门槛地检测任何你感兴趣的物体。

1. 环境准备：一分钟进入状态

拿到一个预装好的镜像，第一步永远是确认环境，确保我们站在正确的起跑线上。YOLOE镜像已经把最麻烦的依赖安装和环境配置都搞定了。

1.1 激活与进入

当你启动并进入这个镜像容器后，只需要执行两条简单的命令：

# 1. 激活专为YOLOE配置的Python环境 conda activate yoloe # 2. 进入项目的主目录 cd /root/yoloe

执行完这两步，你的终端提示符通常会发生变化，表示已经进入了名为yoloe的Conda环境。这个环境里已经安装了PyTorch、CLIP、Gradio等所有必需的库，版本都是兼容好的，避免了令人头疼的依赖冲突。

1.2 理解核心脚本

在/root/yoloe目录下，你会看到几个关键的Python脚本，它们对应着YOLOE不同的使用模式。我们这次体验的核心是predict_text_prompt.py，它专门用于“文本提示”检测。

简单来说，这个脚本的工作流程是：你给它一张图片，再给它一个或多个物体类别的文字描述（比如“dog”，“traffic light”），它就能在图片中框出这些物体。这一切，完全不需要模型事先在“狗”或“交通灯”的数据集上训练过。

2. 核心体验：用文字指令检测任意物体

理论说再多，不如动手试一次。我们直接用一个例子，看看如何检测自定义类别。

2.1 准备你的“指令”

假设我们有一张街景图片street_scene.jpg，我们想找出里面的“人”（person）、“狗”（dog）和“自行车”（bicycle）。那么，我们的“指令”就是这三个类别的名称。

在YOLOE镜像中，官方已经提供了一些示例图片，位于ultralytics/assets/目录下。我们就用经典的bus.jpg（公交车图片）来演示。我们的目标是检测出“人”、“公交车”和“狗”（虽然原图可能没有狗，但没关系，这正好展示了其开放词汇能力）。

2.2 运行文本提示检测

打开终端，在已经激活的yoloe环境并位于/root/yoloe目录下，执行以下命令：

python predict_text_prompt.py \ --source ultralytics/assets/bus.jpg \ --checkpoint pretrain/yoloe-v8l-seg.pt \ --names person bus dog \ --device cuda:0

我们来拆解一下这个命令的每个部分：

--source ultralytics/assets/bus.jpg: 指定要检测的图片路径。
--checkpoint pretrain/yoloe-v8l-seg.pt: 指定使用的模型权重文件。这里用的是预训练好的yoloe-v8l-seg模型（大型分割模型）。镜像已经预下载了权重，放在pretrain/目录下。
--names person bus dog: 这就是核心的“文本提示”。我们告诉模型，请在这张图里找出“人”、“公交车”和“狗”。你可以在这里替换成任何你想检测的类别英文单词，比如car tree traffic_light。
--device cuda:0: 指定使用GPU进行推理以加速。如果你的环境没有GPU，可以改为--device cpu。