当前位置：首页 > news >正文

9-LLTrack:用于二维多目标跟踪的并行关联框架

news 2026/7/1 19:02:11

摘要

多目标跟踪(MOT)是计算机视觉领域的基础任务,在存在频繁遮挡、目标形变以及目标间相似性模糊的拥挤场景中仍面临诸多挑战。现有的基于检测的跟踪方法通常仅依赖单一关联线索或运动与外观线索的序列组合,当出现关联冲突时难以充分发挥两者互补优势。本文提出LLTrack——一种二维多目标跟踪框架,通过并行匹配与冲突解决机制优化关联阶段处理。具体而言, 基于运动特征和基于外观特征的关联信息可并行计算,并根据运动层面的可靠性指标解决冲突匹配结果;同时引入轻量级注意力导向外观模块(ABM)以提升重识别特征的区分度,并采用辅助损失函数设计来稳定训练过程。在MOT17、MOT20及DanceTrack数据集上的实验均表明LLTrack具有优异的性能表现。这些结果表明,所提出的框架对于具有多种运动模式的二维MOT基准测试非常有效,而将其扩展到更广泛的智能视觉系统方面则有待未来研究。

本文的主要贡献总结如下:

(1)我们的方法为二维多目标跟踪引入了一种并行关联策略。与在串行过滤流程中使用运动和外观特征不同，该方法并行执行两种关联操作，并仅解决相互冲突的分配结果，从而更有效地利用互补特征。

(2)采用了一种轻量级基于注意力机制的外观模块，以提升判别能力和时间敏感性。用于关联分析的外观嵌入向量具有一致性，且整体框架已在MOT17、MOT20和DanceTrack数据集上得到验
证。
(3)本文设计了一种面向任务的外观学习损失函数，该函数同时重视困难样本和类间边界增强，从而提升了外观嵌入在模糊匹配场景下的区分能力，并为提出的并行关联框架提供了更可靠的外观支持。

我们开展了大量实验，以评估所提出方法在复杂运动模式及多种场景下的性能。通过HOTA、MOTA和IDF1等标准指标测得的定量结果表明，在多个数据集上，该方法相较于代表性基线模型均展现出具有竞争力的表
现。

1、代码和数据集

1.1 论文代码

https:// github.com/ljc4336/LLTrack

1.2 数据集

所提出的LLTrack跟踪器的有效性已在MOT17 、MOT20 以及DanceTrack基准数据集上进行评估。

2、要解决的问题

尽管取得了这些进展,现有的许多方法仍依赖于隐式融合或层次化决策规则——在早期阶段,某一特征线索可能会主导或抑制其他线索。在存在遮挡、突然运动或外观高度相似的拥挤场景中,此类设计可能增加假阴性结果的风险。【1】

2.1并行关联匹配机制的问题

目前跟踪系统中现有的身份关联方单特征策略依赖于法大致可分为两种范式:单特征方法和序列框架方法。单特征策略完全基于运动或外观特征进行分配决策。顺序式框架首先手动选择一个特征作为过滤器以缩小关联范围,随后使用另一特征作为主要匹配指标来完成匹配任务。这种方法可避免两种特征匹配结果之间的冲突。需要注意的是,使用的特征数量越多,跟踪性能越高。然而本文重点研究能够充分利用不同特征以提升跟踪性能的关联方法。现有关联范式已在多种实际应用场景中进行初步评估,结果表明:(1)现有关联范式未能在各种场景中充分挖掘不同特征的优势;(2)运动速度、运动效果与外观特征之间存在高度相关性。【3.1】

2.2 提出注意力模块的原因

所提出的ABM是一种受“压缩-激发机制”启发的轻量级通道注意力模块。其引入的目的并非作为全新的注意力机制家族,而是作为增强LLTrack流程中外观嵌入效果的实用改进方案。该模块接收中间阶段生成的外观特征张量后,首先进行全局平均池化处理,随后通过两个包含瓶颈层和Sigmoid门控函数的全连接层来重新校准通道响应。这种设计能够在最终嵌入用于关联分析前,有效突出关键外观特征线索并抑制次要通道响应。本ABM专门应用于ReID分支生成的外观嵌入特征,而非检测器主干特征或原始检测特征。在实际实现的流程中,检测器首先生成目标框,外观分支则为这些检测结果提取嵌入特征;随后ABM会在这些特征用于基于外观的关联分析前对其进行校准。因此,ABM可作为外观关联阶段中轻量级的特征优化模块。【3.2】

2.3 可靠外观区分造型设计的原因

在LLTrack系统中,外观分支的引入并非仅仅为了实现通用身份表征。更重要的是,当基于运动特征和基于外观特征的匹配结果出现矛盾时,该分支会直接参与冲突解决阶段。在这种情况下,外观嵌入的质量将直接影响最终的匹配决策。这一要求在复杂场景下尤为关键—例如遮挡、姿态突变以及物体间外观高度相似等情况, 这类场景更容易产生模糊样本。因此,提升困难外观样本的可区分性不仅需要优化训练过程,更是实现所提出的并行框架中可靠关联分析的关键前提。

诸如交叉熵这样的标准分类目标函数主要侧重于整体类别预测准确率,但对于在运动目标检测(MOT)中主导身份模糊性的困难样本子集而言可能不够充分。在 LLTrack的外观分支中,有两个优化偏差尤为关键:首先是样本级别的难度分布失衡——大量简单样本可能主导训练信号,而数量相对较少的模糊样本(如部分遮挡的目标或视觉特征高度相似的目标)对最终关联可靠性的影响更为显著;其次是类别级别的边界偏差—当外观类别在特征空间中位置相近时,传统目标函数可能无法提供足够大的类间差异以支持稳健的冲突解决。因此,LLTrack中的外观编码器需同时关注困难样本并扩大类别边界,从而在仅凭运动线索不足时提供更可靠的辅助支持。【3.3】

3、提出的创新点

因此,本研究并未强制实施早期过滤,而是采用了并行关联范式:基于运动特征和基于外观特征的匹配结果分别独立计算,仅对相互冲突的组合进行处理。这种设计既保留了两种特征线索均支持的候选匹配项,又能更均衡地利用互补信息。

除了关联策略外,检测质量与外观表征也会影响整体跟踪性能。因此 ,LLTrack整合了YOLOX 检测框架、OC-SORT的运动建模策略以及FastReID的外观表征方法。为进一步提升特征区分能力,我们引入了基于注意力机制的模块(ABM),以突出信息丰富的特征同时抑制相关性较低的响应。

3.1 追踪流程

图2展示了所提出方法的端到端跟踪工作流程。每个视频帧首先通过 YOLOX 进行处理以识别目标物体。符合置信度标准(默认设置:0.6)的识别区域会被划分为高置信度和低置信度两类。采用匈牙利算法根据交并比相似度确定预测框与检测框的最佳匹配关系。随后针对未匹配的轨迹片段与低置信度检测框,运用与初始匹配阶段相同的方法进行二次数据关联。最终将匹配成功的检测框存储至对应的轨迹片段中;对于未能与现有轨迹片段关联但满足设定条件的检测框,则生成新的轨迹片段。未匹配的轨迹片段会被归档保存,而连续30帧均未被检测到的轨迹片段则予以剔除。在识别完序列中的所有运动轨迹后,系统采用运动特征与外观特征作为同步评估指标,实现了所提出的并行关联框架。与取集合并集的方法类似,该方法能够解决冲突并更新输出轨迹集。整个过程的伪代码如算法1 所示。

3.2并行关联匹配机制

基于上述两点, 本文提出了一种将运动特征与外观特征作为双重指标相结合的并行关联框架。我们提出了一种并行关联匹配机制(其伪代码详见算法1),用以实现既定框架并解决潜在的匹配冲突问题。为便于理解算法1,将其执行流程归纳为三个步骤:首先独立计算基于运动特征和基于外观特征的匹配结果;其次根据运动层面的标准仅筛选出存在冲突的匹配对进行进一步处理;最后将已解决的匹配结果与无冲突的匹配结果合并,用于轨迹片段的更新。这一说明旨在对伪代码进行流程化阐释,有助于清晰展现该算法在实际应用中的运行机制。

在初始化阶段,会计算用于将轨迹片段与检测结果关联起来的基于外观的成本矩阵(Acost)和基于运动的成本矩阵(Mcost)。随后,最终匹配集M被初始化为空集。接着开始第一轮匹配:LLtrack采用匈牙利算法分别确定基于外观和基于运动的匹配结果(分别记为和Mm),这一过程称为预匹配。在预匹配结果中,存在完全相同的匹配项。

M被更新并视为最终匹配集M,而第二轮匹配则考虑存在冲突的匹配项。在第二轮中,LLTrack仅处理这些冲突匹配项而非提前剔除它们。其设计动机在于:运动特征与外观特征会以不同方式失效——运动特征可能因突变位移或定位不准确而变得不可靠,而外观特征则可能因严重遮挡或物体间高度相似性而失效。因此,我们并未将任一特征作为所有情况下的硬性预过滤条件;相反,保留两种预匹配结果,并仅对两种特征不一致的匹配对进行最终判定。该设计旨在减少序列关联流程中早期剔除导致的非必要假阴性结果。本文采用交并比 (IoU)来衡量运动特征强度,其表达式为:

其中和分别表示连续两帧中同一轨迹片段的预测边界框。该指标并非旨在成为运动不确定性的理论最优估计量,而是作为衡量短期运动稳定性的简单高效替代指标。高交集 union index(IoU)表明物体轨迹在相邻帧间平滑变化,此时运动连续性更适用于关联判断; 反之,低IoU则提示存在显著位移、形状变化或定位不一致,此时外观特征对解决模糊匹配更具参考价值。因此,本文将MotionLevel作为以可靠性为导向的启发式指标,实现几乎无计算开销的自适应特征选择。对于新初始化的轨迹片段,由于仅凭单个观测数据尚无法可靠估算短期运动连续性,MotionLevel会被临时设为1。这种初始化策略旨在避免在目标首次进入场景时过度依赖运动外推——此时外观特征通常比单步运动预测更具信息价值。在实际应用中,这条规则该机制仅影响新轨迹片段的初始关联步骤;一旦获得第二个观测数据 ,MotionLevel 值将根据常规IoU( 交并比)定义进行更新。因此,这种初始化过程应被视为边界条件启发式方法,而非持久运动先验。所提出的冲突解决机制具有两大实际优势:首先,其额外计算成本较低,因为第二阶段决策仅针对存在冲突的匹配项而非所有候选对;其次,其鲁棒性取决于两个基础特征指标的可靠性——若运动特征与外观特征同时失效,该方法仍可能产生错误关联。因此我们认为,本方案属于轻量级可靠性启发式方法,在多数常见MOT场景中可有效提升关联阶段性能,而非全局最优决策规则。

采用位于[0, 1]区间内的阈值α来区分相对稳定运动情况与相对不稳定运动情况。当t小于α时,运动线索被视为足够可靠并保留基于运动的匹配;否则选择基于外观的匹配。需要强调的是,α是一个实用控制参数而非普适常数,其最优值决于数据集的运动统计特征和冲突频率。因此,α通过验证集网格搜索确定,并在所有测试实验中对每个数据集保持固定值。实验部分提供的灵敏度曲线表明该方的有效性集中在稳定区间而非单一孤立点。本文采用基于阈值的二元选择方案以简化计算流程并提升可解释性。与软权重机制相比,当前规则仅引入可忽略的额外成本,且易于在两阶段关联分析流程中进行分析。我们并不声称这种硬切换方案在理论上是最优的。相反,它被用作一种实用的启发式方法;而学习型置信度估计或软线索加权仍是未来研究的重要方向。

3.3 注意力模块

该模块的集成实现了特征权重在不同通道维度上的动态调整,从而显著增强模型对目标特征的聚焦能力,并大幅提升其区分不同模式的能力。注意力机制模块可动态为各通道分配权重,使模型能够重点突出与目标检测特征匹配任务相关的关键特征,同时剔除无关或冗余特征。这种自适应能力显著强化了基础判别特征,进而提升特征匹配精度并优化目标跟踪性能。在目标检测和运动目标追踪 (MOT) 任务中 , 匹配准确率 ( 如 HOTA 和IDF1指标)取决于同一目标特征在不同帧间的正确关联。该模块的加权机制使生成的嵌入特征更具判别力,从而使模型在匹配过程中能更精准地区分相似目标,有效降低误匹配率并提高整体匹配准确度。在跟踪过程中,经过该模块增强的特征能够展现出更高的稳定性,从而确保同一物体的表征结果更加一致。这种一致性提升对多目标跟踪准确率(MOTA)和身份碎片化指标(IDF1)均产生积极影响——因为更强的一致性可减少误匹配和碎片化问题的发生。该模块能自适应地调整每个样本的特征权重,使模型在不同样本间具备更强的灵活性,进而提升其在测试集上的泛化能力,最终提高整体性能。总体而言,引入基于注意力机制的模块能使网络在特征提取过程中学习到更具区分度且时间上一致的外观特征。如图3所示,所提出的注意力模块通过利用通道间的依赖关系来重新校准通道响应,从而增强模型对信息性特征的敏感度,并抑制无用响应。该方法的步骤如下:压缩阶段:对输入x沿通道维度进行全局平均池化,具体表达式为:

其中 Xi,j,c 表示输入特征图在位置 (i,j) 处的特征值 ; 通道 c、i 和 j分别表示特征图的高度和宽度 ( 空间坐标);c代表通道索引(例如RGB图像包含三个通道); Xi,j,c则表示特征图中位置(i,j)处的特征值。第c个通道,而表示通道c的全局平均值。

激励过程:经过两个全连接层及一个激活函数后,各通道的权重值即被生成。因此,其表达式可表示为:

其中σ表示Sigmoid函数,和为权重矩阵。

比例:输入信号的每个通道均根据其对应权重进行重新加权:

其中表示重新加权后的特征,x_c和sc分别表示通道 c的输入特征及其权重系数。

3.4 可靠外观区分的造型设计

为解决上述问题,我们提出了一种面向任务的复合目标函数——LMF损失,用于外观学习。该损失函数融合了焦点损失中的硬样本重加权特性与 LDAM 损失中的边界增强特性。其核心思想在于:这两个项发挥着不同但互补的作用——焦点项控制哪些样本主导优化过程,而 LDAM 项则决定决策边界的定位位置。这种组合特别适用于LLTrack的外观学习分支,因为在该分支中,硬样本的模糊性以及类别分离不足都可能影响冲突解决的可靠性。

对于具有真实标签 y 的训练样本,令z表示外观分类器的输出逻辑值,py 表示经过softmax操作后对真实类别的预测概率。焦点术语定义如下:

其中为类别平衡因子,为聚焦参数。该公式会降低正确分类的简单样本的权重,同时保留对困难或误分类样本更强的优化信号。当py接近1时,调节因子(1 _py)变小,从而减少简单样本的贡献;相反,当py较小时, 相应的损失权重增大,促使模型更加关注外观特征模糊的样本。

LDAM 术语定义如下:

其中表示真实类别的logit值,则是与类别y相关的类别依赖性自适应边界。该边界与类别y中的训练样本数量呈反比关系——样本较少的类别会被赋予更大的有效边界。与焦点重加权方法不同, LDAM 直接在logit 空间中重塑分类几何结构,从而促进学习到的嵌入空间中出现更紧密的类内聚类和更显著的类间分离。这一特性在拥挤的跟踪场景中尤为重要:由于不同目标可能具有相似的服装、形状或姿态,仅使用传统分类目标难以区分它们。

基于上述动机,所提出的 LMF 损失定义如下:

其中和分别为焦距项与 LDAM 项的平衡系数。本研究中这两个系数均在验证集上选定,并在整个实验过程中保持固定。因此,所提出的损失函数应被视为面向任务的外观学习复合目标函数,而非脱离关联阶段的通用辅助项。

1) 梯度流分析

为阐明所提出的组合方案为何有效,我们进一步在logit水平上分析了两个成分的梯度行为。对于核心项而言,其关于该变量的导数为第k个logit可表示为:

其中表示指示函数。该表达式表明焦点项会根据当前样本的置信度自适应地调整梯度的大小:当py → 1 时,梯度幅度会被迅速抑制,从而降低易采样样本在训练过程中的主导作用;当py较小时,梯度值保持相对较大,从而为难解样本和模糊样本保留更强的优化信号。从这个意义上说,焦点项实现了基于难度感知的梯度权重调整。

对于 LDAM 项,将边缘偏移后的对数概率定义为~和 ~zj=zj( 其中 j/=y), 并令 q= softmax(~ z)。此时其梯度形式如下:

尽管该表达式在数学形式上与基于修正Logit值的标准交叉熵函数相同,但其作用机制与核心术语存在本质差异。 LDAM 项的主要功能并非重新调整易样本与难样本的权重分布,而是通过类别相关的边界条件来改变 Logit值的几何结构,从而调整实际决策边界。换言之, 核心术语决定了哪些样本对优化过程贡献更为显著, 而 LDAM 项则决定了分类器如何在嵌入空间中区分相邻类别。

因此,所提出的 LMF 损失函数的梯度可表示为:

该公式对组合效应提供了直接阐释:焦点成分着重呈现复杂且模糊的外观样本,而 LDAM 成分则扩大有效类别边界。因此,这两个项互为补充而非冗余,这也解释了为何它们的结合适用于LLTrack的外观分析分支。

2) 优化与概率解释

从优化角度而言,所提出的LMFloss可被理解为一种复合替代风险度量,用于表征外观学习过程中的两种耦合偏差:样本层面的难度不平衡以及类别层面的边界偏置。其中核心项负责实现自适应样本重加权,而LDAM项则在对数几率空间中施加基于类别的边界正则化。最终目标函数能够同时平衡特征表示拟合与边界塑造,这在MOT(多目标匹配)中的模糊匹配场景中具有重要价值。

从概率学角度来看,焦点项可视为一种重新加权的负对数似然函数,其能抑制高置信度简单样本的贡献;而 LDAM 项则通过类别依赖的logit边际来调节后验分布的竞争关系。尽管所提出的损失函数并非源自完整的概率生成模型,但仍可理解为一种判别性目标函数,能够在外观信息模糊的情况下重塑后验学习结果。这一解释与 LLTrack中外观分支的作用尤为吻合——因为外观嵌入向量被直接用于解决运动线索与外观线索之间的不一致判定问题。

4.结论与不足

4.1 结论

本文提出了一种新型的并行关联范式,用于算法优化,可充分挖掘其潜力。本文重点研究了物体外观特征与运动特征的识别方法。此外,我们提出了一种名为LLTrack的框架来实现精准实现该功能:该框架能根据物体运动强度动态调整外观特征或运动特征的使用比例以增强关联性。同时,我们提出了ABM模型以提升追踪器对物体外观的表征能力, 并在三个基准数据集上进行了大量实验验证。实验结果表明,所提出的追踪器性能优异,显著优于现有最先进方法。未来工作中,我们将进一步优化检测模型和运动模型,以提高其在追踪场景中的准确性和可靠性。