StrongSORT: 让DeepSORT再次伟大

看见这个标题就想起RepVGG，在DeepSORT的基础上提出了一系列改进，取得了不错的效果，不过FPS被拉低了

论文题目：

StrongSORT: Make DeepSORT Great Again

论文地址：

https://arxiv.org/abs/2202.13514

摘要现有的多目标跟踪(MOT)方法大致可分为检测跟踪和联合检测-关联两种模式，尽管后者已经引起了更多的关注，并证明了与前者相比具有相当的性能，但我们声称，就跟踪精度而言，检测跟踪范式仍然是最优解决方案，本文对经典的跟踪器DeepSORT进行了重新审视，并从检测、特征和关联等方面对其进行了升级。

由此产生的追踪器被称为StrongSORT，在MOT17 和 MOT20上创造了新的HOTA和IDF1记录，我们还提出了两种轻量级即插即用算法来进一步改进跟踪结果，首先，提出了一种无外观链接模型(AFLink)，将短轨迹与完整轨迹相关联，据我们所知，这是第一个没有外观信息的全局链接模型；其次，我们提出高斯平滑插值(GSI)来补偿缺失检测，GSI不是像线性插值那样忽略运动信息，而是基于高斯过程回归算法，可以实现更精确的定位，此外，AFLink和GSI可以插入到各种跟踪器中，额外的计算成本可以忽略不计(在MOT17上分别为591.9和140.9 Hz)，通过将StrongSORT与两种算法进行集成，最终的跟踪器StrongSORT++在MOT17 和 MOT20上的HOTA和IDF1指标排名第一，并以1.3 - 2.2的优势超过第二名。

关键词:多目标跟踪，检测跟踪，轻量化

1介绍

多目标跟踪(MOT)在视频理解中扮演着重要的角色，它的目标是逐帧检测和跟踪所有特定类别的对象，在过去的几年中，基于检测的跟踪范式主导了MOT任务。它每帧执行检测，并将MOT问题作为数据关联任务，得益于高效的目标检测模型，基于检测的跟踪方法因其优异的性能而受到人们的青睐，然而，这些方法通常需要多个计算成本高的组件，如检测器和特征模型，为了解决这一问题，最近的几种方法将检测器和特征模型集成到一个统一的框架中，此外，联合检测和特征训练似乎比单独的产生更好的效果。

因此，这些方法(联合跟踪器)与通过检测进行跟踪的方法(单独跟踪器)相比，可以获得相当甚至更好的跟踪精度，联合跟踪器的成功促使研究人员为各种组件设计统一的跟踪框架，如检测、运动、特征和关联模型，然而，我们认为这些联合框架存在两个问题:(1)不同组件之间的竞争(2)联合训练这些组件的数据有限，虽然已经提出了多种解决策略，但这些问题仍然降低了跟踪精度的上限，相反，独立追踪器的潜力似乎被低估了。

在本文中，我们回顾了经典的分离跟踪器DeepSORT，它是最早将深度学习模型应用于MOT任务的方法之一，据称，与最先进的方法相比，DeepSORT的表现不佳是因为它的技术过时，而不是它的跟踪范式，我们证明，通过简单地在DeepSORT中装备各方面的先进组件，产生了StrongSORT，它可以在流行基准MOT17和MOT20上实现新的SOTA。

还提出了两种轻量级、即插即用、模型无关、外观无关的算法来优化跟踪结果，首先，为了更好地利用全局信息，有几种方法提出使用全局链接模型将短轨迹与轨迹相关联，它们通常生成精确但不完整的轨迹，并将它们与全局信息相关联，尽管这些方法显著提高了跟踪性能，但它们都依赖于计算密集型模型，特别是外观特征，相比之下，我们提出了一种无外观链接模型(AFLink)，该模型仅利用时空信息来预测两个输入的tracklet是否属于同一个ID。

其次，线性插值被广泛用于补偿漏检，然而，它忽略了运动信息，这限制了插值位置的准确性，为了解决这一问题，我们提出了高斯平滑插值算法(GSI)，该算法使用高斯过程回归算法来增强插值。

大量实验证明，这两种提出的算法在StrongSORT和其他最先进的跟踪器(如CenterTrack、TransTrack和FairMOT)上取得了显著的改进，特别地，通过将AFLink和GSI应用于StrongSORT，我们得到了一个更强的跟踪器strongsort++。在MOT17测试集上实现了64.4 HOTA、79.5 IDF1和79.6 MOTA (7.1 Hz)，在MOT20测试集上实现了62.6 HOTA、77.0 IDF1和73.8 MOTA (1.4 Hz)。图1将我们的StrongSORT和strongsort++与mo17和mo20测试集上最先进的跟踪器进行了比较，我们的方法获得了最佳的IDF1和HOTA性能以及相当的MOTA性能，此外，AFLink和GSI分别在MOT17上以591.9和140.9 Hz运行，在MOT20上以224.0和17.6 Hz运行，计算成本可以忽略不计。

我们的工作总结如下:

1)我们重新审视了经典的独立跟踪器DeepSORT，并从多个方面对其进行改进，形成了StrongSORT，它在MOT17和MOT20数据集上创造了新的HOTA和IDF1记录。

2)我们提出了AFLink和GSI两种轻量级和外观无关的算法，可以插入到各种跟踪器中，从而大幅度提高其性能。

3)通过将StrongSORT与AFLink和GSI集成，我们的StrongSORT++在MOT17和MOT20中广泛使用的HOTA和IDF1指标排名第一，比第二名高出1.3 - 2.2。

2相关工作

2.1独立和联合跟踪器

MOT方法可分为独立跟踪器和联合跟踪器，独立的跟踪器遵循检测跟踪范式，首先定位目标，然后将其与外观、运动等信息关联起来。得益于目标检测的快速发展，独立的跟踪器多年来一直主导着MOT任务，最近，一些联合跟踪器被提出联合训练检测和一些其他组件，例如运动、特征和关联模型。这些跟踪器的主要优点是计算成本低，性能相当，然而，我们认为联合跟踪器面临两个主要问题:不同部件之间的竞争，有限的数据用于联合训练部件，这两个问题限制了跟踪精度的上限，因此，我们认为逐检测跟踪范式仍然是跟踪性能的最佳解决方案。

与此同时，最近的一些研究放弃了外观信息，只依赖高性能探测器和运动信息，在MOTChallenge基准测试中实现了高运行速度和最先进的性能，然而，我们认为这部分是由于这些数据集中的运动模式普遍简单，在更复杂的场景中，放弃外观特征会导致鲁棒性较差，在本文中，我们采用了类似deepsort的范式，并从各个方面为其配备了先进的技术，以证实这一经典框架的有效性。

2.2 MOT全局链接

为了利用丰富的全局信息，有几种方法使用全局链接模型对跟踪结果进行优化，它们倾向于首先使用时空和/或外观信息生成精确但不完整的轨迹，然后，通过离线方式探索全局信息将这些tracklet链接起来，TNT设计了一个多尺度的TrackletNet来测量两个tracklet之间的连通性，它利用多尺度卷积核将运动和外观信息编码到统一的网络中。TPM提出了一个小轨平面匹配过程，将容易混淆的小轨推入不同的小轨平面，有助于减少小轨匹配步骤中的混淆。ReMOT由ReMOTS改进而来，给定任何跟踪结果，ReMOT将不完美的轨迹分割为轨迹小块，然后将它们与外观特征合并。GIAOTracker提出了一种复杂的全局链接算法，通过使用改进的ResNet50-TP模型编码轨迹外观特征，并将轨迹与空间和时间代价关联起来。

虽然这些方法取得了显著的改进，但它们都依赖于外观特征，这带来了较高的计算成本，不同的是，我们提出了AFLink模型，它只利用运动信息来预测两个轨迹之间的链接置信度，通过设计合适的模型框架和训练过程，AFLink使各种先进的跟踪器受益，而额外成本可以忽略不计，据我们所知，这是MOT任务的第一个无外观和轻量级全局链接模型。

2.3 MOT插值

线性插值被广泛应用于填补恢复轨迹的空白漏检，尽管它简单有效，线性插值忽略了运动信息，限制了插值恢复边界框的精度，为了解决这个问题，有几种策略提出有效利用时空信息。V-IOUTracker扩展ioutacker，解决单目标跟踪缺失的检测，MAT采用循环伪观测轨迹填充策略对线性插值轨迹进行非线性平滑处理，需要一个额外的摄像机运动补偿(CMC)模型和卡尔曼滤波来预测缺失位置。MAATrack通过只应用CMC模型简化了它，所有这些方法都应用了额外的模型，即单目标跟踪器，CMC，卡尔曼滤波，以换取性能的提高，相反，我们提出基于高斯过程回归(GPR)算法建模非线性运动，我们提出的GSI算法没有额外的耗时组件，实现了精度和效率之间的良好平衡。

与我们的GSI最相似的工作，它使用GPR算法平滑未插值的轨迹，以实现精确的速度预测，但是，它适用于监控视频中的事件检测任务，不同的是，我们研究MOT任务，采用GPR对插值定位进行细化，此外，我们提出了一个自适应平滑因子，而不是预先设置超参数。

3 StrongSORT

在本节中，我们提出了改进经典跟踪器DeepSORT的各种方法，具体来说，我们将在3.1节中回顾DeepSORT，并在3.2节中介绍StrongSORT。值得注意的是，我们在这一节中不声明任何算法的新奇之处，相反，我们在这里的贡献在于清晰地理解DeepSORT，并为它配备各种先进的技术来证明其范式的有效性。

3.1 DeepSORT综述

我们简单地将DeepSORT总结为两个分支框架，即外观分支和运动分支，如图2的上半部分所示。

在外貌分支中，给定每一帧的检测，应用在人再识别数据集MARS上预训练的深度外貌描述符(一个简单的CNN)来提取他们的外貌特征。它利用特征机制来存储每个tracklet最后100帧的特征，当出现新的检测时，第i个轨迹的特征库Ri与第j个检测的特征fj之间的最小余弦距离计算为

在关联过程中使用该距离作为匹配代价。

在运动分支中，卡尔曼滤波算法负责预测当前帧中轨迹的位置，然后，利用马氏距离(Mahalanobis distance)度量轨迹与检测之间的时空相似性，DeepSORT将这个运动距离作为一个阈值，过滤掉不可能的关联。

然后，提出了匹配级联算法，将关联任务作为一系列子问题来解决，而不是全局分配问题，其核心思想是为更常见的对象提供更高的匹配优先级，每个关联子问题都用匈牙利算法求解。

3.2加强DeepSORT

我们对DeepSORT的改进主要体现在两个分支上，如图2的下半部分所示。对于外观分支，采用更强的外观特征提取器BoT代替原来简单的CNN，以resnesst50为骨干，在DukeMTMCreID数据集上进行预训练，可以提取出更具鉴别性的特征，此外，我们将特征库替换为特征更新策略，以指数移动平均(EMA)的方式更新第i个轨迹在帧t处的外观状态eti，如下所示:

其中f ti为当前匹配检测的外观特征，α = 0.9为动量项，EMA更新策略不仅提高了匹配质量，而且减少了时间消耗。

对于运动分支，我们采用ECC进行摄像机运动补偿，此外，卡尔曼滤波器是脆弱的w.r.t，低质量检测，忽略检测噪声尺度的信息，为了解决这个问题，我们借鉴了NSA Kalman算法，该算法提出了一个自适应计算噪声协方差公式:

其中Rk为预设的恒定测量噪声协方差，ck为状态k下的检测置信度评分。

此外，我们在匹配过程中不是只使用外观特征距离，而是同时使用外观和运动信息来解决分配问题，成本矩阵C是外观成本Aa和运动成本Am的加权和，如下所示:

其中权重因子λ设为0.98，另一个有趣的发现是，尽管匹配级联算法在DeepSORT中并不简单，但随着跟踪器变得更强大，它限制了性能，原因是，随着跟踪器变得更强，它对易混淆的关联变得更健壮，因此，附加的先验约束会限制匹配精度，我们用全局线性分配代替匹配级联。

4 StrongSORT++

我们在第3节中介绍了一个强大的跟踪器，在本节中，我们将介绍两种轻量级、即插即用、模型无关、外观无关的算法，即AFLink和GSI，以进一步完善跟踪结果，我们将最后一个方法称为StrongSORT++，它将StrongSORT与这两种算法集成在一起。

4.1 AFLink

在一些研究中使用了tracklet的全局链接来追求高度精确的关联，然而，它们通常依赖计算成本高的组件和大量超参数进行微调，例如，GIAOTracker中的链接算法利用改进的ResNet50-TP来提取tracklets的3D特征，并与额外的空间和时间距离进行关联，这意味着需要对6个超参数(3个阈值和3个权重因子)进行微调，需要进行额外的调优实验，鲁棒性较差，此外，我们发现过度依赖外观特征容易受到噪声的影响，基于此，我们设计了一个无外观模型，AFLink，仅依靠时空信息预测两个tracklet之间的连通性。

图3显示了AFLink模型的两个分支框架，它采用两个轨迹Ti和Tj作为输入，其中T * = {fk, xk, yk}Nk=1由最近N = 30帧的帧fk和位置(xk, yk)组成。对于那些小于30帧的内容使用零填充。利用时间模块沿时间维以7 × 1核进行卷积来提取特征，然后，融合模块进行1 × 3的卷积，将f、x、y三个不同特征维度的信息进行整合，得到的两个特征映射分别被池化和压缩为特征向量，然后进行拼接，其中包含了丰富的时空信息，最后，利用MLP预测关联的置信度得分。注意，两个分支的时态模块和融合模块没有绑定。

在关联过程中，我们过滤掉了具有时空约束的不合理的轨迹对，然后，全局链接被求解为一个线性分配任务与预测的连接评分。

4.2 GSI

插值法被广泛应用于填补探测缺失造成的轨迹空白，线性插值由于其简单而非常受欢迎，然而，由于它不使用运动信息，其准确性是有限的，虽然已经提出了几种解决这一问题的策略，但它们通常引入额外的耗时模块，如单目标跟踪器、卡尔曼滤波、ECC，不同的是，我们提出了一种轻量级插值算法，该算法使用高斯过程回归来建模非线性运动。

我们建立第i个轨迹的GSI模型如下:

其中K(·，·)是一个基于K(·，·)的协方差函数，此外，超参数λ控制着轨迹的平滑性，这与轨迹的长度有关，我们简单地将其设计为一个自适应长度为l的函数，如下所示:

其中τ设置为10。

图4举例说明了GSI和线性插值(LI)之间的区别，原始跟踪结果(橙色)通常包括噪声抖动，LI(蓝色)忽略运动信息，我们的GSI(红色)通过自适应平滑因子平滑整个轨迹，同时解决了这两个问题。

5 Experiments

5.1数据集和评价指标

数据集 我们在“私有检测”协议下对MOT17和MOT20数据集进行了实验，MOT17是MOT常用的数据集，由7个序列，5316帧训练帧和7个序列，5919帧测试帧组成，MOT20专为高度拥挤的挑战性场景设置，共有4个镜头，8,931帧用于训练，4个镜头，4,479帧用于测试。

对于消融研究，我们将MOT17训练集中每个序列的前半部分用于训练，后半部分用于验证，我们使用DukeMTMC来预训练我们的外观特征提取器，在CrowdHuman数据集和MOT17半训练集上训练检测器，用于消融，添加了Cityperson和ETHZ进行测试。

评价指标 我们使用MOTA、IDs、IDF1、HOTA、AssA、DetA和FPS等指标来评估跟踪性能，MOTA是基于FP、FN和id计算的，更关注检测性能，相比之下，IDF1较好地度量了ID匹配的一致性，HOTA是检测分数DetA和关联分数AssA的显式组合，它将执行精确检测和关联的效果平衡为一个统一的度量，此外，它在预测框和GT边界框之间的多个不同的检测相似度值(0.05到0.95，间隔为0.05)下进行评估，而不是像MOTA和IDF1那样设置一个单一的值(即0.5)，更好地考虑了定位精度。

5.2实现细节

对于检测，我们采用在COCO上预训练的YOLOX-X作为我们的检测器，以改进时间精度权衡，在推断中，非最大抑制(NMS)的阈值设置为0.8，检测置信度的阈值设置为0.6，对于StrongSORT，特征距离阈值为0.45,ECC的曲速模式为MOTION EUCLIDEAN，EMA的动量项α为0.9，外观成本λ的权重因子为0.98，对于GSI，插值允许的最大间隙为20帧，超参数τ为10。

对于AFLink，时间模块由4个7× 1核卷积层和输出通道组成，每个卷积后面都有一个BN层和一个ReLU激活层，融合模块包括一个1× 3卷积、一个BN和一个ReLU，它不会改变通道的数量，该分类器是一个MLP，有两个完全连接的层，中间插入一个ReLU层。训练数据是通过将带注释的轨迹切割成带有随机时空噪声的轨迹，正负样本比例为1:3。我们使用Adam作为优化器，交叉熵损失作为目标函数，用余弦退火学习速率计划训练它20个周期，整个训练过程只需要10多秒，在推理中，使用30帧的时间距离阈值和75像素的空间距离阈值来过滤不合理的关联对，最后，如果其预测得分大于0.95，则考虑关联，所有的实验都是在一台使用单一V100的服务器上进行的。

5.3消融研究

StrongSORT的消融研究 表1总结了从DeepSORT到StrongSORT的路径:

1)BoT:用BoT替换原始的特征提取器会显著改善IDF1，表明关联质量受益于更具辨别性的外观特征。

2) ECC: CMC模型的结果是IDF1和MOTA略有增加，这意味着它有助于提取更精确的运动信息。

3) NSA: NSA卡尔曼滤波改进了HOTA，但不能改进MOTA和IDF1，这意味着它提高了定位精度。

4) EMA: EMA特征更新机制带来的不仅是更好的关联，还有更快的速度。

5) MC:与外观和动作成本辅助协会相匹配。

6) woC:对于较强的跟踪器，具有冗余先验信息的匹配级联算法限制了跟踪精度，通过简单地使用匹配方法，IDF1得到了很大的改进。

AFLink和GSI的消融研究 我们将AFLink和GSI应用于6种不同的跟踪器，即3种版本的StrongSORT和3种最先进的跟踪器(CenterTrack、TransTrack和FairMOT)，结果如表2所示。每个跟踪器的第一行结果是原始性能，AFLink(第二条线)的应用为不同的跟踪器带来了不同程度的改进，具体来说，较差的追踪者往往从AFLink中获益更多，因为他们丢失的关联更多，特别是CenterTrack的IDF1改进了3.7，每个跟踪器的第三行结果证明了GSI在检测和关联方面的有效性，与AFLink不同，GSI在更强的追踪器上工作得更好，表3比较了我们的GSI和LI，结果表明，GSI具有较好的性能，且计算成本较低。

5.4 MOTChallenge结果

我们将StrongSORT、StrongSORT+ (StrongSORT+AFLink)和StrongSORT++ (StrongSORT+AFLink+GSI)与MOT17和MOT20测试集上最先进的跟踪器进行比较，分别见表4和表5。值得注意的是，将FPS与绝对公平性进行比较是很困难的，因为每种方法所声称的速度取决于它们所实现的设备，而花费在检测上的时间通常被排除在逐个检测的跟踪器之外。

MOT17 在MOT17上发表的所有方法中，StrongSORT++ 在指标HOTA、IDF1、AssA、DetA方面排名第一，在MOTA、IDs方面排名第二,特别地，它产生了一个准确的关联，并比第二性能跟踪器的表现要好很多(即+2.2 IDF1和+2.4 AssA)。我们使用与消融研究中相同的超参数，并没有为每个序列仔细调整它们,测试集的稳定改进证明了我们方法的鲁棒性,值得注意的是，我们的再现版DeepSORT(具有更强的检测器和几个调优超参数)在基准测试上也表现良好，这证明了类DeepSORT跟踪范式的有效性。

MOT20 MOT20是来自更拥挤的场景，高拥挤意味着高风险的缺失检测和关联，StrongSORT++在HOTA、IDF1和AssA指标上仍然排名第一，它获得的id比其他追踪器要少得多，注意，我们使用了与MOT17中完全相同的超参数，这意味着我们的方法具有泛化能力，它的检测性能(MOTA和DetA)与几种跟踪器相比略差，我们认为这是因为我们使用了与MOT17中相同的检测评分阈值，这导致了许多漏检，具体来说，我们的StrongSORT++的度量FN(假阴性数)是117,920，而ByteTrack的度量FN只有87,594。

定性结果 图5显示了StrongSORT++在MOT17和MOT20测试集上的几个跟踪结果，MOT17-01的结果表明了我们的方法在正常情况下的有效性，从MOT17-08的结果中，我们可以看到模糊后正确的关联，MOT17-14的实验结果表明，该方法可以很好地保证摄像机在运动状态下的工作，此外，MOT17-04的结果显示，StrongSORT++在严重遮挡情况下具有优异的性能。

5.5局限性

StrongSORT和StrongSORT++仍然有一些局限性，主要问题是，与联合跟踪器和几种无外观的独立跟踪器相比，它们的运行速度相对较低。有必要进一步研究如何提高计算效率，此外，虽然我们的方法在指标IDF1和HOTA中排名第一，但MOTA略低，这主要是由于检测分数的阈值较高导致漏检较多，我们相信一个复杂的阈值策略或关联算法会有所帮助，而AFLink虽然在恢复缺失关联方面表现良好，但对于假关联问题却无能为力，具体来说，AFLink不能将ID混淆的轨迹分割为精确的轨迹，需要在未来的工作中制定更强大和更灵活的全局链接战略。

6 结论

本文对经典的跟踪器DeepSORT进行了回顾，并对其进行了多方面的改进，由此产生的StrongSORT在MOT17和MOT20基准上实现了新的SOTA，并证明了类deepsort范式的有效性，我们还提出了两种轻量级和无外观的算法来进一步优化跟踪结果，实验表明，它们可以应用于各种先进的跟踪器，并使其受益，而额外的计算成本可以忽略不计，我们的最终方法StrongSORT++在MOT17和MOT20上的HOTA和IDF1指标排名第一，并超过第二名1.3-2.2，值得注意的是，与关联跟踪器相比，我们的方法运行速度相对较慢，在未来，我们将进一步研究改进时间准确度平衡。

网站首页 > 技术文章正文

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

StrongSORT: 让DeepSORT再次伟大

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: