当前位置：首页 > news >正文

零基础入门VideoAgentTrek-ScreenFilter：图片检测+JSON输出实战教程

news 2026/7/8 3:31:52

零基础入门VideoAgentTrek-ScreenFilter：图片检测+JSON输出实战教程

你是不是也遇到过这样的场景？手头有一堆截图或视频，需要快速找出里面所有的屏幕、显示器或者特定的界面元素。比如，整理会议录屏时想自动标记出所有PPT页面，或者分析用户操作视频时想统计鼠标点击了哪些按钮。如果一张张、一帧帧地人工去找，不仅耗时费力，还容易出错。

今天，我要介绍一个能帮你自动化完成这项工作的神器——VideoAgentTrek-ScreenFilter。它就像一个拥有“火眼金睛”的智能助手，能自动识别图片或视频中的屏幕内容，并给你一份清晰的结构化报告。更重要的是，它提供了一个开箱即用的中文Web界面，你不需要懂复杂的命令行，也不需要配置繁琐的深度学习环境，打开网页就能用。

这篇教程，我将带你从零开始，手把手学会如何使用VideoAgentTrek-ScreenFilter完成图片检测任务，并理解它输出的JSON结果。即使你没有任何AI或编程背景，也能轻松跟上。

1. 什么是VideoAgentTrek-ScreenFilter？

简单来说，VideoAgentTrek-ScreenFilter是一个专门用于检测图片和视频中“屏幕”类目标的AI工具。它的核心能力有两个：

图片检测：上传一张图片，它能找出图中所有的屏幕（比如电脑显示器、手机屏幕、平板界面），并用框标出来，同时生成一份包含所有检测框位置、类别和可信度的JSON文件。
视频检测：上传一段视频，它能对每一帧画面进行分析，最终输出一个所有屏幕都被标记出来的新视频，并生成一份整个视频的检测统计报告。

这个工具背后是香港大学和阿里巴巴团队的一项前沿研究（VideoAgentTrek）中的关键组件。在原研究中，ScreenFilter扮演了“质检员”的角色，负责从海量的网络教程视频中，自动筛选出那些真正包含电脑界面操作的、高质量的视频片段，为后续训练更强大的AI智能体提供了纯净的数据源。

现在，这个强大的筛选能力被封装成了一个独立的、易于使用的Web应用。无论你是想批量处理图片，还是分析视频内容，它都能派上用场。

2. 准备工作：快速访问与界面初识

使用VideoAgentTrek-ScreenFilter非常简单，因为它已经以“镜像”的形式部署好了。你不需要安装任何软件，只需要一个浏览器。

2.1 访问应用

在浏览器地址栏输入以下地址，即可打开应用界面：

https://gpu-mgoa3cxtqu-7860.web.gpu.csdn.net/

打开后，你会看到一个简洁的中文界面。整个页面主要分为三个区域：

左侧参数设置区：在这里选择检测模式、上传文件、调整参数。
中间结果显示区：检测后的图片或视频会在这里显示。
右侧JSON输出区：所有检测结果的详细数据会以JSON格式展示在这里。

2.2 理解两个核心参数

在开始检测前，我们先理解两个可能会用到的参数，它们决定了检测的“严格”程度：

置信度阈值 (conf)：模型对检测出的目标有多大的把握。值越高（如0.5），只输出非常确定的目标；值越低（如0.1），输出更多可能的目标，但也可能包含一些错误。
NMS IOU阈值 (iou)：当两个检测框重叠很多时，用来决定保留哪一个。值越高，越容易保留重叠的框；值越低，越会抑制掉重叠的框。

对于初次使用，建议直接使用默认值（conf=0.25,iou=0.45），这在大多数情况下都能取得不错的效果。

3. 实战演练：完成一次图片检测

现在，我们以最常见的“图片检测”模式为例，走一遍完整流程。

3.1 上传图片并设置

选择模式：在界面左上角，确保选中的是“图片检测”模式。
上传图片：点击“上传”区域，从你的电脑中选择一张包含屏幕的图片。比如，可以是一张办公室的照片（包含电脑显示器），或者一个软件界面的截图。支持JPG和PNG格式。
参数设置：暂时保持“置信度阈值”和“NMS IOU阈值”为默认的0.25和0.45。

3.2 开始检测与查看结果

点击蓝色的“开始图片检测”按钮。稍等几秒钟（具体时间取决于图片大小和服务器状态），结果就会呈现。

你会看到两部分输出：

可视化结果图（中间区域）：原始图片上会画出一个个彩色的矩形框，每个框都圈出了一个被识别为“屏幕”的区域。框的旁边会标注类别名称（如screen）和置信度分数。
结构化JSON结果（右侧区域）：这是本次教程的重点。所有检测到的信息都以一种机器可读的格式（JSON）详细列出。我们下一节来详细拆解它。

4. 读懂检测报告：JSON输出详解

JSON输出是程序给你的“检测报告”，它比图片上的框包含更精确、更丰富的信息。理解它，你才能更好地利用检测结果。以下是一个典型的输出示例及解读：

{ “model_path”: “/root/ai-models/xlangai/VideoAgentTrek-ScreenFilter/best.pt”, “type”: “image”, “count”: 2, “class_count”: {“screen”: 2}, “boxes”: [ { “frame”: 0, “class_id”: 0, “class_name”: “screen”, “confidence”: 0.87, “xyxy”: [320, 150, 800, 600] }, { “frame”: 0, “class_id”: 0, “class_name”: “screen”, “confidence”: 0.92, “xyxy”: [850, 200, 1100, 500] } ] }

我们来逐字段解读：

model_path: 告诉你当前使用的是哪个模型文件。对于这个镜像，它是固定的。
type: 检测类型，这里是“image”，表示图片检测。
count:总检测目标数。这张图里一共找到了2个屏幕。
class_count:按类别统计的数量。目前模型主要检测“screen”（屏幕）这一类。这里{“screen”: 2}表示检测到2个屏幕目标。
boxes:检测框明细列表，这是最核心的部分。它是一个数组，里面的每个对象代表一个被检测到的目标。
- frame: 帧号。在图片模式下，这个值永远是0。
- class_id与class_name: 类别ID和名称。0对应“screen”。
- confidence:置信度，范围0-1。这个值越高，表示模型越确定这个框里是屏幕。例如，0.87和0.92都表示非常高的置信度。
- xyxy:检测框的坐标，格式为[x1, y1, x2, y2]。这是图片像素坐标系：
  - x1, y1：框的左上角坐标。
  - x2, y2：框的右下角坐标。
  - 以第一个框[320, 150, 800, 600]为例，它表示一个左上角在(320, 150)，右下角在(800, 600)的矩形区域。

4.1 如何利用JSON数据？

这份结构化的数据非常有用，你可以：

批量处理：写一个简单的脚本，读取多张图片的JSON结果，自动统计所有图片中屏幕的总数。
精确定位：利用xyxy坐标，可以在原图上进行更精细的裁剪或分析。
筛选结果：根据confidence分数，过滤掉那些可信度低的检测结果（比如只保留置信度>0.8的框）。
集成到其他系统：JSON是通用的数据交换格式，可以轻松地将检测结果导入到你的数据库、报表或其他应用程序中。

5. 调参技巧：如何让检测更准？

如果你发现检测结果不理想（比如该检出的没检出，或不该检出的乱检出），可以尝试调整参数。

5.1 调整置信度阈值 (conf)

问题：漏检太多（明明有屏幕，却没检测出来）。
- 解决：尝试降低conf值，例如从0.25调到0.15。这样模型会变得更“敏感”，输出更多可能的目标，但误检也可能增加。
问题：误检太多（把不是屏幕的东西，比如窗户、画框，也当成了屏幕）。
- 解决：尝试提高conf值，例如从0.25调到0.4或0.5。这样模型会变得更“保守”，只输出它非常确定的目标。