当前位置: 首页 > news >正文

突破遮挡与身份错乱!MPMOT:让多目标跟踪更稳、更快、更准

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12112576/pdf/jimaging-11-00144.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

本文提出的MPMOT:基于运动感知的多目标跟踪框架,用 “运动感知” 破解跟踪痛点,在三大权威数据集上全面超越 SOTA,还能保持实时运行!

PART/1

痛点

传统跟踪的三大痛点,MPMOT 一次性解决

目前主流多目标跟踪,普遍存在三个致命问题:

  1. 过度依赖外观:遮挡、模糊、相似目标场景,外观特征失效,身份乱跳
  2. 卡尔曼滤波太死板:固定噪声假设,对低置信度检测不敏感,预测飘移
  3. 轨迹易断裂:长时间遮挡后, tracklet 无法重连,完整性差

MPMOT 没有堆复杂模型,而是聚焦运动信息,用三个轻量模块,从预测、关联、补全三个环节全面升级跟踪 pipeline。

PART/2

核心设计

MPMOT 核心设计:三大模块,层层强化

MPMOT 基于 FairMOT 基线改进,整体架构如下图所示,全程端到端、实时推理。

1. 增益卡尔曼滤波 GKF:让运动预测更稳

传统卡尔曼滤波用固定观测噪声,不管检测置信度高低,一律同等对待。MPMOT 提出GKF

  • 根据检测置信度动态调整观测噪声协方差

  • 置信度高,信任检测;置信度低,降低检测权重,更依赖预测

  • 比 NSA-KF 更稳定,比普通 KF 更抗遮挡、抗模糊

2. 自适应代价矩阵 ACM:让数据关联更准

数据关联是身份保持的关键,传统方法固定融合外观与运动,不够灵活。MPMOT 设计ACM

  • 动态融合马氏距离(运动)+ 余弦距离(外观)+ IoU

  • 根据遮挡、检测质量自动调整权重,优先信任运动信息

  • 用匈牙利算法完成最优匹配,大幅减少身份切换

3. 全局连接模型 GCM:让轨迹更完整

遮挡会把一条轨迹切成多段,GCM 就是轨迹 “缝合器”

  • 用时空卷积提取 tracklet 特征

  • 学习时空一致性,把断裂轨迹重新连接

  • 不依赖 heavy 图优化,轻量高效,专治长时遮挡

PART/3

效果

效果碾压:三大数据集全面领先 SOTA

MPMOT 在 MOT16、MOT17、MOT20 三大权威基准测试,结果如下:

1. MOT16 结果

  • IDF1:72.8%(超越 FairMOT 1.1%)

  • MOTA:72.2%

  • FPS:22.5(实时可用)

2. MOT17 结果

  • IDF1:72.6%(超越 FairMOT 1.3%)

  • 身份切换 IDs 大幅减少

  • 速度 22.6 FPS,保持实时

3. MOT20 结果

MOT20 是极拥挤、强遮挡场景,MPMOT 优势更明显:

  • IDF1:70.2%(全场第一)

  • MOTA:64.5%

  • IDs:2132(显著低于 ByteTrack、OC-SORT)

4. 统计显著性验证

所有 p 值 < 0.05,证明 MPMOT 的提升不是偶然,是统计显著

PART/4

实验

在 MOT17 上做模块消融,清晰看到:

  • 只加 GKF:MOTA、IDF1 上升,IDs 下降

  • 再加 ACM:身份保持大幅提升

  • 最后加 GCM:轨迹最完整,IDs 降到最低全程速度仅小幅下降,精度与效率完美平衡

同时对比不同卡尔曼滤波、不同代价矩阵,GKF 与 ACM 均为最优选择。

PART/5

可视化效果

可视化效果:遮挡、拥挤、高速都能稳跟

原文给出直观对比:

  • 快速运动、相机抖动场景:FairMOT 跟丢,MPMOT 稳定保持 ID

  • 密集人群、严重遮挡场景:FairMOT 频繁身份切换,MPMOT 全程 ID 一致

MPMOT 在多样场景下的跟踪效果,轨迹连贯、ID 稳定。

PART/6

总结

核心亮点

  1. 运动优先:弱化外观依赖,强抗遮挡、抗模糊
  2. 三模块轻量:GKF+ACM+GCM,精度涨点,速度不掉
  3. 全域领先:MOT16/17/20 全面超越 SOTA,统计显著
  4. 实时可用:最高 22.6 FPS,工业落地友好

局限与未来

  • 仍受低质量检测影响

  • 极端暗光、恶劣天气待优化

  • 未来将轻量化、边缘部署、拓展自动驾驶 / 航拍场景

一句话总结:MPMOT 用运动感知重新定义多目标跟踪,在复杂真实场景中更稳、更准、更连贯,是下一代跟踪算法的重要方向!

有相关需求的你可以联系我们!

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!


往期推荐

🔗

  • YOLO-TLA:一种基于 YOLOv5 的高效轻量级小目标检测模型

  • ViT-YOLO:基于Transformer的用于目标检测的YOLO算法

  • SSMA-YOLO:一种轻量级的 YOLO 模型,具备增强的特征提取与融合能力,适用于无人机航拍的船舶图像检测

  • LUD-YOLO:一种用于无人机的新型轻量级目标检测网络

  • Gold-YOLO:基于聚合与分配机制的高效目标检测器

  • Drone-YOLO:一种有效的无人机图像目标检测

  • 「无人机+AI」“空中城管”

  • 无人机+AI:光伏巡检自动化解决方案

  • 无人机视角下多类别船舶检测及数量统计

  • 机场项目:解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

  • 2PCNet:昼夜无监督域自适应目标检测(附原代码)

  • YOLO-S:小目标检测的轻量级、精确的类YOLO网络

  • 大改Yolo框架 | 能源消耗极低的目标检测新框架(附论文下载)

  • 改进的检测算法:用于高分辨率光学遥感图像目标检测

http://www.jsqmd.com/news/720823/

相关文章:

  • Java RPG Maker MV/MZ文件解密器:解锁加密游戏资源的完整指南
  • PHP 8.9错误处理升级全解析(RFC #8821深度解码)
  • ArcGIS Pro二次开发实战:手把手教你用C#批量将非标数据‘塞’进国土空间规划空库
  • BMAM架构:基于脑科学的多轮对话AI记忆系统设计
  • 从‘看不见’到‘看得清’:详解ENVI中的FLAASH大气校正到底在帮你纠正什么?
  • 保姆级教程:用Python监听EMQX设备上下线,并实时写入MySQL数据库
  • 发轮胎损伤自动检测系统、智能维护平台以及质量控制系统 深度学习框架目标检测算法如何使用深度学习YOLOV8模型训练道路汽车轮胎缺陷损伤分割检测数据集 检测识别轮胎鼓包扎钉 切割痕迹
  • 基于Next.js与WooCommerce构建高性能无头电商前端实战指南
  • RTranslator模型下载优化终极指南:5分钟搞定1.2GB离线翻译模型
  • TMC2660驱动6线步进电机失败?排查单/双极性接线误区与SPI/STEP/DIR模式选择实战
  • Windows 原生安装 Hermes Agent 踩坑记录|Git 冲突 + 子模块失败 通俗解读
  • 医疗AI前沿技术解析:多模态诊断与药物发现新突破
  • OneNet新版MQTT数据上传实战:从Env_temp到云端可视化的完整链路
  • YOLO26涨点改进| SCI 2025 | 独家创新首发、注意力改进篇| 引入DRAB双残差注意力模块,改进FBRT-YOLO小目标检测模型,助力红外小目标检测、小目标图像分割、遥感目标检测任务涨点
  • 5分钟在Unity中集成SQLite数据库的完整指南:SQLite4Unity3d实战
  • UNION、UNION ALL
  • 开发者方舟计划:软件测试从业者的专业进化之路
  • 3DMark下载2026(附安装指南)专业显卡性能测试工具
  • TrollInstallerX终极指南:3分钟搞定iOS越狱应用安装的完整教程
  • 金融数据开放与文档智能处理开源方案解析
  • ClawdHome:基于macOS多用户隔离的AI助手实例管理方案
  • 用QT Creator给STM32做个上位机:串口控制LED的保姆级教程(附源码)
  • 英语阅读_The boss uniform
  • React瀑布流组件react-plock:智能布局、响应式与性能优化实战
  • 3步完成黑苹果配置:OpCore Simplify智能图形化工具深度解析
  • douyin-downloader深度解析:抖音无水印批量下载终极指南
  • BepInEx 6.0.0版本:为什么你的Unity游戏突然崩溃了?
  • A-LOAM跑完KITTI数据集,如何用ROS一键保存点云地图(附PCD/PLY转换技巧)
  • 开源实时语音交互系统CortiLoop:从架构到实现的完整指南
  • 主构造函数重构风暴,C# 13如何让DTO/Record/Entity初始化性能提升47%?