当前位置：首页 > news >正文

Ultralytics RegionCounter工业级计数落地实践

news 2026/6/18 23:31:16

1. 这不是“加个框数人数”的简单活儿，而是工业级视觉计数的落地实践

我做计算机视觉项目落地快十年了，从最早用 OpenCV 手写背景建模+形态学处理数超市客流，到后来搭 YOLOv5 + ByteTrack 做产线工件计数，再到最近半年密集跑通 Ultralytics 官方RegionCounter模块在 7 个真实产线、3 个连锁商超和 2 个地铁站闸机口的部署——我越来越确信：区域内目标计数，表面看是画几个多边形框、跑个 inference，背后却是模型能力、跟踪鲁棒性、区域几何定义精度、时序稳定性、边缘设备适配性五重能力的咬合。

你看到的那几行 Python 示例代码，只是冰山露出水面的尖角。真正卡住项目交付的，从来不是“怎么调region_points”，而是：

当两个行人并排走过矩形区域边界时，模型把他们识别成一个拉长的 bbox，导致漏计；
当视频帧率波动（比如 USB 摄像头在高温下掉帧），RegionCounter内部的帧间 ID 关联逻辑直接崩断，计数跳变 ±5；
当你在仓库高货架区部署，YOLO26n 对小目标（如托盘上单个螺丝包）召回率只有 63%，但你又不能无脑换 yolo26x——它在 Jetson Orin 上推理延迟飙到 420ms，根本撑不住实时流；
更隐蔽的是：Ultralytics 文档里没明说，但RegionCounter的“进入/离开”判定逻辑，默认以 bbox 中心点是否落入多边形内为唯一判据，而实际场景中，人或车的 bbox 中心常因姿态遮挡剧烈偏移，导致“刚进区域就判出”或“已出区域还计数”。

这正是我要拆解清楚的：如何把 Ultralytics 官方模块，从“能跑通 demo”的状态，推到“客户验收签字”的工业级稳定水平。不讲虚的，不堆概念，只说我在东莞某电子厂产线、杭州某母婴连锁店后仓、深圳某地铁站实测踩过的坑、调出来的参数、写死的补丁。关键词就一个：region-counting——不是泛泛而谈的目标检测，是聚焦于“区域”这个空间约束下的精确、鲁棒、可解释的计数闭环。适合三类人：正在写毕设需要可复现代码的研究生、接到甲方需求要两周内上线的乙方工程师、以及想把 YOLO26 真正用进生产环境的算法同学。下面所有内容，都来自我本地 127 个实验视频、38 次现场调试、217 小时日志分析的真实沉淀。

2. 核心设计思路：为什么必须绕开官方 demo 的“直觉陷阱”

2.1 官方 RegionCounter 的底层逻辑与三个隐藏假设

Ultralytics 的solutions.RegionCounter并非从零开发的新模块，而是基于其成熟的solutions.ObjectCounter（用于线计数）扩展而来。它的核心流程图其实非常清晰：

输入帧 → YOLO 推理 → Tracker 关联 ID → 对每个 track 计算 bbox 中心 → 判定中心是否在 region 多边形内 → 更新区域计数器 → 可视化/输出

但这里埋着三个关键假设，它们在 demo 视频里完美成立，却在真实场景里频频失效：

提示：这三个假设，就是你项目失败的根源。必须逐个击破，而不是祈祷“换个模型就好了”。

假设一：“bbox 中心 = 物体真实位置”
YOLO 系列模型输出的 bbox，本质是对目标最小外接矩形的回归。当目标发生严重遮挡（如两人并肩行走）、极端姿态（如俯拍视角下人蹲下）、或小目标（<32×32 像素）时，bbox 中心会系统性偏移。我们实测过：在 1080p 监控画面中，对身高 1.7m 的行人，YOLO26n 的 bbox 中心平均偏移达 23.6 像素（约 0.8m 实际距离）。这意味着：一个本该在区域 A 边界上的行人，其中心点可能被判定在区域 B 内，造成跨区域误计。

假设二：“Tracker 能无缝维持 ID 跨越区域边界”
RegionCounter默认使用botsort.yaml，它依赖卡尔曼滤波预测 + IoU 匹配。但在区域边界处，目标常因快速进出导致 bbox 形状突变（如从完整人体变为半截躯干），此时 Kalman 预测误差放大，IoU 匹配失败，ID 断裂。我们抓取了 5000 帧连续视频，在区域入口处统计 ID 断裂率：botsort为 18.3%，而bytetrack因引入外观特征匹配，降至 9.1%。但bytetrack的代价是 GPU 显存占用高 37%，在 Jetson 设备上需降分辨率。

假设三：“区域是静态、刚性、无歧义的几何体”
官方示例里region_points是硬编码的 list 或 dict。但真实场景中：

商场扶梯口区域需随人流方向动态调整（上行/下行区域不同）；
工厂传送带区域需随皮带位移实时平移；
地铁闸机区域需根据闸机开关状态切换“通行区”和“滞留区”。
硬编码多边形无法响应这些变化，而RegionCounter原生不支持运行时更新 region。

2.2 我的重构方案：四层加固架构

针对上述问题，我在所有交付项目中强制采用以下四层加固设计，它不是“改几个参数”，而是对整个计数链路的重定义：

层级	名称	解决的问题	关键实现
L1 数据层	自适应 bbox 中心校准	破除“中心=位置”假设	引入轻量级姿态关键点回归分支（仅 3 个点：头、胸、腹），用胸点替代 bbox 中心作为区域判定依据。实测偏移降低至 4.2 像素。
L2 跟踪层	混合跟踪策略	降低 ID 断裂率	区域内用`bytetrack`（高精度），区域边界 50 像素缓冲区内切回`botsort`（低延迟），通过`tracker.update()`的返回状态自动切换。
L3 区域层	动态区域引擎	支持运行时区域变更	将`region_points`抽象为`RegionManager`类，支持 JSON 配置热加载、坐标系自动缩放（适配不同分辨率摄像头）、以及基于时间/事件的区域切换（如`if time > '18:00': use_night_region()`）。
L4 逻辑层	状态机计数器	消除瞬时抖动	不再用“中心点瞬时落入”判定进出，而是构建有限状态机：`ENTERING → INSIDE → LEAVING → OUTSIDE`，每个状态需持续 3 帧（约 120ms）才触发计数变更，彻底过滤抖动。

这个架构不是理论空想。它已在东莞某 SMT 贴片车间落地：产线每分钟过板 12 块，要求对 PCB 板上特定 IC 区域计数，精度需 ≥99.5%。原方案用官方 demo，误计率 4.7%；接入四层加固后，连续 72 小时运行误计率 0.18%，且支持产线换型时通过网页上传新区域配置，5 秒内生效。

2.3 为什么选 YOLO26 而非 YOLOv8/v10？性能数据说话

很多人问：YOLO26 是新模型，文档少、社区案例少，为何不沿用更成熟的 YOLOv8？答案藏在硬件适配曲线里。我对比了三款模型在相同硬件（Jetson Orin AGX, 32GB RAM, 用 TensorRT 加速）上的关键指标：

模型	输入尺寸	FPS (TensorRT)	mAP50@0.5 (COCO-val)	小目标召回率 (32px)	显存占用
yolov8n	640×640	48.2	37.3	52.1%	1.8 GB
yolov10n	640×640	41.7	39.8	56.4%	2.1 GB
yolo26n	640×640	63.5	42.6	68.9%	1.6 GB

注意三个关键点：

FPS 高出 yolov8n 31.7%：YOLO26 的 C2f-PSA 结构大幅减少冗余计算，这对实时计数至关重要——每秒多处理 15 帧，意味着区域判定延迟降低 230ms，ID 关联更稳定；
小目标召回率提升 16.8 个百分点：在仓库盘点场景，托盘上单个电池盒尺寸常为 40×30 像素，yolo26n 的召回率直接决定计数下限；
显存反而更低：得益于更精简的 neck 设计，为 tracker 和后处理逻辑腾出更多内存，避免 OOM 导致服务崩溃。

所以，选 YOLO26 不是追新，而是在边缘设备资源约束下，用更高效率换取更高精度的务实选择。如果你的项目跑在 x86 服务器上且不差 GPU，yolov8x 可能更合适；但凡涉及 Jetson、RK3588、Orin 等嵌入式平台，YOLO26 是当前最优解。

3. 核心细节解析：从代码到产线的 12 个致命细节

3.1 region_points 的几何陷阱：别再用“肉眼画框”

官方示例里region_points = [(50,50), (250,50), (250,250), (50,250)]看似简单，实则暗藏玄机。我见过太多项目在这里翻车：

陷阱一：坐标系混淆
OpenCV 的cv2.VideoCapture读取的帧，坐标系原点在左上角 (0,0)，x 向右，y 向下。但很多工程师用标注工具（如 CVAT）导出的坐标是“左下角原点”，直接粘贴会导致区域整体上移 1080 像素（在 1080p 视频中），计数为 0。
陷阱二：像素精度丢失
region_points必须是整数 tuple，但实际标定时，你用鼠标拖拽得到的坐标常含小数（如(203.7, 412.3)）。四舍五入看似合理，但当区域是细长条（如 2 像素宽的通道入口线），0.5 像素的偏移可能导致整条线失效。我的做法是：用亚像素级多边形填充算法，将浮点坐标转为cv2.fillPoly可接受的np.int32数组，并验证填充面积是否符合预期。

陷阱三：多边形自相交
画区域时手抖，或从 CAD 导入坐标顺序错乱，导致多边形自相交（如蝴蝶结形状）。OpenCV 的cv2.pointPolygonTest对此类多边形返回值不可靠。必须在初始化时加入校验：

def is_valid_polygon(points): # 使用 shapely 库检测自相交 from shapely.geometry import Polygon poly = Polygon(points) return poly.is_valid and not poly.is_empty assert is_valid_polygon(region_points), f"Region polygon invalid: {region_points}"

实操心得：我所有项目的区域标定，都强制走三步流程：① 在原始视频帧上用 OpenCVcv2.polylines绘制；② 用cv2.pointPolygonTest对 100 个随机点采样，验证内外判定一致性；③ 导出为 JSON 并用在线 GeoJSON 工具可视化检查。宁可多花 20 分钟，不省这一步。

3.2 Tracker 参数的魔鬼细节：conf 和 iou 不是越大越好

RegionCounter的conf（置信度阈值）和iou（交并比阈值）常被当作“调参开关”，但它们的物理意义远不止于此：

conf=0.1的真相：这不是“让模型更宽松”，而是主动引入大量低置信度检测，为 tracker 提供更多候选目标。在人流密集场景，高 conf（如 0.5）会过滤掉被遮挡的行人下半身，导致 tracker 丢失 ID；低 conf 则保留这些“残缺 bbox”，配合bytetrack的外观匹配，反而能维持 ID 连续性。但我们实测发现：conf低于 0.08 时，误检暴增，tracker 计算量翻倍，FPS 下降 40%。最优值在 0.09~0.12 区间，需结合场景密度微调。
iou=0.7的陷阱：这是 IoU 匹配的阈值，但它的作用对象是“当前帧检测”与“tracker 预测框”的匹配。iou过高（如 0.9），要求预测框与检测框几乎重合，对快速移动目标不友好；过低（如 0.3），则不同目标的 bbox 可能被错误关联。更关键的是：iou值直接影响 tracker 的“遗忘速度”。我们通过分析 tracker 的track_id生命周期发现：iou=0.7时，ID 平均存活 8.3 秒；iou=0.5时，升至 12.7 秒；但iou=0.3时，ID 错误延续率达 23%。因此，iou必须与conf协同调整——高conf配高iou，低conf配中iou。

避坑技巧：我写了一个自动化调参脚本，它会：① 在测试视频上以 0.01 步长扫描conf（0.05~0.2）和iou（0.3~0.9）；② 对每个组合，计算 ID 断裂率、误计率、FPS；③ 输出 Pareto 最优前沿（即：在 FPS≥45 前提下，误计率最低的参数）。这套方法帮我在 3 个项目中将调参时间从 3 天压缩到 2 小时。

3.3 device 与 line_width 的隐性成本：GPU 显存不是无限的

device='cuda:0'看似理所当然，但真实世界里，你的设备可能同时跑着：

YOLO 推理（占显存主力）
Tracker 的 Kalman 滤波矩阵运算（占显存次主力）
OpenCV 的cv2.VideoWriter编码（部分 GPU 编码器也吃显存）
甚至还有个cv2.imshow的 GUI 渲染（在 Jetson 上尤其吃显存）

当line_width=2时，RegionCounter.plot_im会在每一帧上绘制 bbox、区域多边形、计数标签，这些绘图操作本身不占 GPU，但plot_im返回的 numpy array 若被频繁复制或转换，会触发 CPU-GPU 数据搬运，成为隐形瓶颈。我们曾在一个项目中发现：line_width=3时，FPS 稳定在 52；但line_width=5时，因绘图耗时增加，FPS 降至 44，且显存占用峰值上涨 0.4GB。

实操心得：在边缘设备部署时，我强制关闭所有非必要可视化：show=False,show_conf=False,show_labels=False，仅保留regioncounter(...).plot_im用于最终结果保存。line_width统一设为None，让 Ultralytics 自动按图像尺寸缩放（1080p 用 2，720p 用 1），既保证清晰度，又规避手动设置风险。

3.4 classes 参数的业务语义：别让算法替你做业务决策

classes=[0,2,3]看似只是过滤类别，但它承载着强烈的业务逻辑。例如：

在零售场景，“顾客”是 class 0，“购物车”是 class 2，“员工”是 class 3。但若你只想统计“进入试衣间区域的顾客”，就必须排除购物车（它可能被推入但人未进）和员工（他们常在试衣间内工作）。
在工厂，“PCB 板”是 class 0，“焊锡膏”是 class 1。若你统计“印刷机出口区域的 PCB 板”，必须排除焊锡膏（它可能飞溅到区域但非目标）。

但问题在于：YOLO 的类别是静态的，而业务规则是动态的。今天试衣间只允许顾客进入，明天可能开放给员工做清洁。硬编码classes会导致每次业务变更都要改代码、重新部署。

我的解决方案是：将classes抽象为“业务规则引擎”。在RegionCounter初始化时，传入一个函数而非列表：

def business_filter(cls_id, bbox, track_id): """业务规则函数：返回 True 表示计入，False 表示忽略""" if cls_id == 0: # 顾客 return True elif cls_id == 2: # 购物车 # 仅当购物车 bbox 中心在顾客 bbox 内时才计入（表示被推着） return is_bbox_inside(bbox, get_customer_bbox(track_id)) else: return False regioncounter = solutions.RegionCounter( model="yolo26n.pt", region=region_points, classes=business_filter, # 传入函数而非列表 ... )

这样，业务规则变更只需更新 JSON 配置文件，无需触碰核心代码。

4. 实操过程：从视频到稳定计数的完整流水线

4.1 环境准备与模型获取：避开 pip install 的坑

Ultralytics 的 PyPI 包（ultralytics==8.2.0）虽方便，但存在两个致命问题：

版本滞后：PyPI 上的ultralytics包，YOLO26 模型权重常比 GitHub 主干晚 2~3 周发布，且solutions模块的 bug 修复更慢；
CUDA 兼容性：pip 安装的 wheel 默认编译为 CUDA 11.8，但你的 Jetson Orin 预装的是 CUDA 12.2，导致torch.cuda.is_available()返回False。

我的标准流程（已验证 12 个项目）：

不走 pip，直接克隆源码：

git clone https://github.com/ultralytics/ultralytics.git cd ultralytics git checkout tags/v8.2.0 # 锁定稳定版本 pip install -e ".[dev]" # -e 表示可编辑安装，便于后续打补丁

手动下载 YOLO26 权重：
官方模型库地址：https://github.com/ultralytics/assets/releases/download/v0.0.0/yolo26n.pt
下载后放至项目目录，不要用model="yolo26n.pt"字符串，而要用绝对路径，避免相对路径在不同工作目录下失效：
```
import os model_path = os.path.join(os.path.dirname(__file__), "weights", "yolo26n.pt") regioncounter = solutions.RegionCounter(model=model_path, ...)
```
Jetson 设备专用编译：
在 Orin 上，必须用torch==2.1.0+cu121和torchvision==0.16.0+cu121，且需从 NVIDIA NGC 下载预编译 wheel：
```
pip uninstall torch torchvision pip install --extra-index-url https://pypi.ngc.nvidia.com \ torch==2.1.0+cu121 torchvision==0.16.0+cu121
```
否则ultralytics的 CUDA kernel 会报错。

4.2 视频源处理：USB 摄像头、RTSP 流、文件的统一抽象

cv2.VideoCapture("path/to/video.mp4")在 demo 里很美，但真实项目中，视频源千奇百怪：

USB 摄像头（/dev/video0）：需手动设置分辨率、帧率、曝光，否则cap.get(cv2.CAP_PROP_FPS)返回假值；
RTSP 流（rtsp://admin:pass@192.168.1.100:554/stream1）：网络抖动导致cap.read()返回False，需重连机制；
MP4 文件：某些编码（如 H.265）在 OpenCV 中解码失败。

我封装了一个VideoStream类，统一处理所有源：

class VideoStream: def __init__(self, source, fps=30, width=1280, height=720): self.source = source self.cap = cv2.VideoCapture(source) # 强制设置参数（对 USB 摄像头有效） self.cap.set(cv2.CAP_PROP_FRAME_WIDTH, width) self.cap.set(cv2.CAP_PROP_FRAME_HEIGHT, height) self.cap.set(cv2.CAP_PROP_FPS, fps) # 对 RTSP 流，添加重连逻辑 if "rtsp://" in str(source): self._rtsp_reconnect() def _rtsp_reconnect(self): while not self.cap.isOpened(): print("RTSP stream disconnected, retrying...") self.cap = cv2.VideoCapture(self.source) time.sleep(2) def read(self): ret, frame = self.cap.read() if not ret: if "rtsp://" in str(self.source): self._rtsp_reconnect() return self.read() # 递归重试 else: raise RuntimeError("Video source ended or corrupted") return ret, frame

使用时：

stream = VideoStream("/dev/video0", fps=25, width=1920, height=1080) while True: success, im0 = stream.read() if not success: break results = regioncounter(im0)

4.3 RegionCounter 初始化：超越文档的 7 个必填参数

官方文档只列了model,region,show等基础参数，但要达到工业级稳定，以下 7 个参数必须显式设置：

参数	推荐值	为什么必须设
`tracker="bytetrack.yaml"`	`"bytetrack.yaml"`	`botsort`在区域边界 ID 断裂率高，`bytetrack`外观匹配更鲁棒（见 2.1 节）
`conf=0.095`	`0.095`	在误检与 ID 连续性间取得最佳平衡（见 3.2 节）
`iou=0.65`	`0.65`	`bytetrack`的推荐值，比默认 0.7 更适应快速移动目标
`classes=business_filter`	`business_filter`函数	将业务逻辑与算法解耦（见 3.4 节）
`device="cuda:0"`	`"cuda:0"`	显式指定，避免`ultralytics`自动选择 CPU
`line_width=None`	`None`	让框架自动适配分辨率，避免手动设置失误
`verbose=False`	`False`	关闭 tracker 的 console 输出，避免日志刷屏影响性能

完整初始化代码：

regioncounter = solutions.RegionCounter( model=model_path, region=region_points, tracker="bytetrack.yaml", conf=0.095, iou=0.65, classes=business_filter, device="cuda:0", line_width=None, verbose=False, show=False, # 生产环境必须关 )

4.4 计数结果解析：不只是`results.plot_im`

regioncounter(im0)返回的results对象，远不止plot_im这一个属性。它的完整结构是：

results = { "plot_im": np.ndarray, # 绘制后的帧（BGR） "counts": { # 各区域计数（dict） "region-01": 12, # 整数，当前帧内目标数 "region-02": 3, }, "tracks": [ # 当前帧所有 track 信息（list） { "id": 1, # track ID "bbox": [x1,y1,x2,y2], # 归一化坐标 "cls": 0, # 类别 ID "conf": 0.92, # 置信度 "region": "region-01", # 所属区域（由中心点判定） }, ... ], "frame_id": 127, # 当前帧序号 }

关键洞察：results.counts是瞬时值，而业务需要的是“累计值”或“趋势值”。
例如：商场要统计“今日总客流”，不能每帧都写数据库；工厂要监控“每小时良品率”，需聚合 3600 帧数据。因此，我总是在主循环中维护一个CounterState类：

class CounterState: def __init__(self, regions): self.regions = regions self.total_counts = {r: 0 for r in regions} # 累计总数 self.hourly_counts = {r: [] for r in regions} # 每小时列表 def update(self, frame_counts): for region, count in frame_counts.items(): self.total_counts[region] += count # 每 3600 帧（1 小时）清空一次 hourly_counts if len(self.hourly_counts[region]) >= 3600: self.hourly_counts[region].pop(0) self.hourly_counts[region].append(count) def get_hourly_avg(self, region): return np.mean(self.hourly_counts[region]) if self.hourly_counts[region] else 0 state = CounterState(["region-01", "region-02"]) while stream.is_opened(): success, im0 = stream.read() if not success: break results = regioncounter(im0) state.update(results.counts) # 更新累计值 # 业务逻辑：每分钟打印一次 region-01 的当前计数 if frame_id % 150 == 0: # 25fps * 60s = 1500, 这里简化为 150 print(f"region-01: {results.counts['region-01']} (total: {state.total_counts['region-01']})")

4.5 视频写入与性能监控：别让`VideoWriter`成为瓶颈

cv2.VideoWriter看似简单，但它是性能杀手：

fourcc="mp4v"在 Linux 上常不支持硬件加速，纯 CPU 编码，CPU 占用飙升；
fps参数若与实际帧率不符，会导致视频加速或减速；
w,h若与im0.shape不一致，write()会静默失败。

我的生产级写入方案：

用 FFmpeg 替代 OpenCV：

import subprocess # 启动 FFmpeg 进程，接收 raw BGR 帧 ffmpeg_cmd = [ 'ffmpeg', '-y', '-f', 'rawvideo', '-vcodec', 'rawvideo', '-pix_fmt', 'bgr24', '-s', '1280x720', '-r', '25', '-i', '-', '-an', '-vcodec', 'libx264', '-preset', 'ultrafast', '-crf', '23', 'output.mp4' ] ffmpeg_proc = subprocess.Popen(ffmpeg_cmd, stdin=subprocess.PIPE) # 在主循环中写入 while ...: results = regioncounter(im0) ffmpeg_proc.stdin.write(results.plot_im.tobytes()) ffmpeg_proc.stdin.close() ffmpeg_proc.wait()

性能监控必须内置：
在主循环开头加时间戳，每 100 帧打印 FPS：

start_time = time.time() frame_count = 0 while ...: frame_count += 1 # ... processing ... if frame_count % 100 == 0: elapsed = time.time() - start_time fps = 100 / elapsed print(f"Real-time FPS: {fps:.1f}") start_time = time.time()

5. 常见问题与排查技巧实录：来自 127 个失败案例的总结

5.1 计数为 0 的 5 大原因及速查表

现象	可能原因	排查命令/步骤	解决方案
所有区域计数恒为 0	`region_points`坐标系错误（如左下角原点）	`print(region_points); cv2.imshow("region", cv2.polylines(im0.copy(), [np.array(region_points)], True, (0,255,0), 2))`	用`cv2.polylines`可视化，确认区域画在正确位置
计数忽高忽低（如 0→5→0→3）	`conf`过高，导致检测不稳定	临时设`conf=0.05`，观察`results.tracks`长度是否稳定	降低`conf`至 0.08~0.12，配合`bytetrack`
区域 A 计数正常，区域 B 始终为 0	`region_points`多边形自相交或顶点顺序错误	`from shapely.geometry import Polygon; print(Polygon(region_points).is_valid)`	用 GeoJSON 工具重画区域，确保顺时针/逆时针一致
计数缓慢爬升（如 1→2→3...），不重置	`RegionCounter`的内部状态未重置	查看`regioncounter.__dict__`，搜索`count`相关字段	重启进程，`RegionCounter`不支持 reset，必须重建实例
`cv2.VideoCapture`打不开 RTSP	网络防火墙或摄像头未开启 RTSP	`ffplay "rtsp://..."`测试；`ping 192.168.1.100`	检查摄像头 Web 界面，启用 RTSP 服务；关闭防火墙

独家技巧：我写了一个debug_region_counter.py脚本，它会：① 加载视频；② 用cv2.polylines绘制所有区域；③ 逐帧运行regioncounter；④ 在控制台打印每帧的results.counts和len(results.tracks)；⑤ 生成 HTML 报告，包含首帧截图、区域叠加图、计数折线图。这个脚本帮我 3 小时内定位了 80% 的“计数为 0”问题。

5.2 ID 断裂的 3 种典型场景与修复

场景一：目标快速进出区域边界

现象：行人从区域左侧进入，走到中间时 ID 突然变成新 ID。
根因：bytetrack的外观特征提取对快速运动模糊敏感。
修复：在bytetrack.yaml中，将track_buffer从默认 30 增加到 60，延长 ID 存活时间；同时，在RegionCounter初始化时，将iou从 0.65 降至 0.55，放宽匹配条件。

场景二：目标被短暂遮挡（如柱子后）

现象：行人被柱子挡住 2 帧，出现后 ID 变更。
根因：bytetrack的卡尔曼滤波预测在遮挡期间发散。
修复：启用bytetrack的motion模块，在bytetrack.yaml中设motion: true，并增加max_age: 45（默认 30），允许 ID 在遮挡后更久恢复。

**场景

查看全文

http://www.jsqmd.com/news/1038799/