看见这个标题就想起RepVGG,在DeepSORT的基础上提出了一系列改进,取得了不错的效果,不过FPS被拉低了
论文题目:
StrongSORT: Make DeepSORT Great Again
论文地址:
https://arxiv.org/abs/2202.13514
摘要 现有的多目标跟踪(MOT)方法大致可分为检测跟踪和联合检测-关联两种模式,尽管后者已经引起了更多的关注,并证明了与前者相比具有相当的性能,但我们声称,就跟踪精度而言,检测跟踪范式仍然是最优解决方案,本文对经典的跟踪器DeepSORT进行了重新审视,并从检测、特征和关联等方面对其进行了升级。
由此产生的追踪器被称为StrongSORT,在MOT17 和 MOT20上创造了新的HOTA和IDF1记录,我们还提出了两种轻量级即插即用算法来进一步改进跟踪结果,首先,提出了一种无外观链接模型(AFLink),将短轨迹与完整轨迹相关联,据我们所知,这是第一个没有外观信息的全局链接模型;其次,我们提出高斯平滑插值(GSI)来补偿缺失检测,GSI不是像线性插值那样忽略运动信息,而是基于高斯过程回归算法,可以实现更精确的定位,此外,AFLink和GSI可以插入到各种跟踪器中,额外的计算成本可以忽略不计(在MOT17上分别为591.9和140.9 Hz),通过将StrongSORT与两种算法进行集成,最终的跟踪器StrongSORT++在MOT17 和 MOT20上的HOTA和IDF1指标排名第一,并以1.3 - 2.2的优势超过第二名。
关键词:多目标跟踪,检测跟踪,轻量化
1介绍
多目标跟踪(MOT)在视频理解中扮演着重要的角色,它的目标是逐帧检测和跟踪所有特定类别的对象,在过去的几年中,基于检测的跟踪范式主导了MOT任务。它每帧执行检测,并将MOT问题作为数据关联任务,得益于高效的目标检测模型,基于检测的跟踪方法因其优异的性能而受到人们的青睐,然而,这些方法通常需要多个计算成本高的组件,如检测器和特征模型,为了解决这一问题,最近的几种方法将检测器和特征模型集成到一个统一的框架中,此外,联合检测和特征训练似乎比单独的产生更好的效果。
因此,这些方法(联合跟踪器)与通过检测进行跟踪的方法(单独跟踪器)相比,可以获得相当甚至更好的跟踪精度,联合跟踪器的成功促使研究人员为各种组件设计统一的跟踪框架,如检测、运动、特征和关联模型,然而,我们认为这些联合框架存在两个问题:(1)不同组件之间的竞争(2)联合训练这些组件的数据有限,虽然已经提出了多种解决策略,但这些问题仍然降低了跟踪精度的上限,相反,独立追踪器的潜力似乎被低估了。
在本文中,我们回顾了经典的分离跟踪器DeepSORT,它是最早将深度学习模型应用于MOT任务的方法之一,据称,与最先进的方法相比,DeepSORT的表现不佳是因为它的技术过时,而不是它的跟踪范式,我们证明,通过简单地在DeepSORT中装备各方面的先进组件,产生了StrongSORT,它可以在流行基准MOT17和MOT20上实现新的SOTA。
还提出了两种轻量级、即插即用、模型无关、外观无关的算法来优化跟踪结果,首先,为了更好地利用全局信息,有几种方法提出使用全局链接模型将短轨迹与轨迹相关联,它们通常生成精确但不完整的轨迹,并将它们与全局信息相关联,尽管这些方法显著提高了跟踪性能,但它们都依赖于计算密集型模型,特别是外观特征,相比之下,我们提出了一种无外观链接模型(AFLink),该模型仅利用时空信息来预测两个输入的tracklet是否属于同一个ID。
其次,线性插值被广泛用于补偿漏检,然而,它忽略了运动信息,这限制了插值位置的准确性,为了解决这一问题,我们提出了高斯平滑插值算法(GSI),该算法使用高斯过程回归算法来增强插值。
大量实验证明,这两种提出的算法在StrongSORT和其他最先进的跟踪器(如CenterTrack、TransTrack和FairMOT)上取得了显著的改进,特别地,通过将AFLink和GSI应用于StrongSORT,我们得到了一个更强的跟踪器strongsort++。在MOT17测试集上实现了64.4 HOTA、79.5 IDF1和79.6 MOTA (7.1 Hz),在MOT20测试集上实现了62.6 HOTA、77.0 IDF1和73.8 MOTA (1.4 Hz)。图1将我们的StrongSORT和strongsort++与mo17和mo20测试集上最先进的跟踪器进行了比较,我们的方法获得了最佳的IDF1和HOTA性能以及相当的MOTA性能,此外,AFLink和GSI分别在MOT17上以591.9和140.9 Hz运行,在MOT20上以224.0和17.6 Hz运行,计算成本可以忽略不计。
我们的工作总结如下:
1)我们重新审视了经典的独立跟踪器DeepSORT,并从多个方面对其进行改进,形成了StrongSORT,它在MOT17和MOT20数据集上创造了新的HOTA和IDF1记录。
2)我们提出了AFLink和GSI两种轻量级和外观无关的算法,可以插入到各种跟踪器中,从而大幅度提高其性能。
3)通过将StrongSORT与AFLink和GSI集成,我们的StrongSORT++在MOT17和MOT20中广泛使用的HOTA和IDF1指标排名第一,比第二名高出1.3 - 2.2。
2相关工作
2.1独立和联合跟踪器
MOT方法可分为独立跟踪器和联合跟踪器,独立的跟踪器遵循检测跟踪范式,首先定位目标,然后将其与外观、运动等信息关联起来。得益于目标检测的快速发展,独立的跟踪器多年来一直主导着MOT任务,最近,一些联合跟踪器被提出联合训练检测和一些其他组件,例如运动、特征和关联模型。这些跟踪器的主要优点是计算成本低,性能相当,然而,我们认为联合跟踪器面临两个主要问题:不同部件之间的竞争,有限的数据用于联合训练部件,这两个问题限制了跟踪精度的上限,因此,我们认为逐检测跟踪范式仍然是跟踪性能的最佳解决方案。
与此同时,最近的一些研究放弃了外观信息,只依赖高性能探测器和运动信息,在MOTChallenge基准测试中实现了高运行速度和最先进的性能,然而,我们认为这部分是由于这些数据集中的运动模式普遍简单,在更复杂的场景中,放弃外观特征会导致鲁棒性较差,在本文中,我们采用了类似deepsort的范式,并从各个方面为其配备了先进的技术,以证实这一经典框架的有效性。
2.2 MOT全局链接
为了利用丰富的全局信息,有几种方法使用全局链接模型对跟踪结果进行优化,它们倾向于首先使用时空和/或外观信息生成精确但不完整的轨迹,然后,通过离线方式探索全局信息将这些tracklet链接起来,TNT设计了一个多尺度的TrackletNet来测量两个tracklet之间的连通性,它利用多尺度卷积核将运动和外观信息编码到统一的网络中。TPM提出了一个小轨平面匹配过程,将容易混淆的小轨推入不同的小轨平面,有助于减少小轨匹配步骤中的混淆。ReMOT由ReMOTS改进而来,给定任何跟踪结果,ReMOT将不完美的轨迹分割为轨迹小块,然后将它们与外观特征合并。GIAOTracker提出了一种复杂的全局链接算法,通过使用改进的ResNet50-TP模型编码轨迹外观特征,并将轨迹与空间和时间代价关联起来。
虽然这些方法取得了显著的改进,但它们都依赖于外观特征,这带来了较高的计算成本,不同的是,我们提出了AFLink模型,它只利用运动信息来预测两个轨迹之间的链接置信度,通过设计合适的模型框架和训练过程,AFLink使各种先进的跟踪器受益,而额外成本可以忽略不计,据我们所知,这是MOT任务的第一个无外观和轻量级全局链接模型。
2.3 MOT插值
线性插值被广泛应用于填补恢复轨迹的空白漏检,尽管它简单有效,线性插值忽略了运动信息,限制了插值恢复边界框的精度,为了解决这个问题,有几种策略提出有效利用时空信息。V-IOUTracker扩展ioutacker,解决单目标跟踪缺失的检测,MAT采用循环伪观测轨迹填充策略对线性插值轨迹进行非线性平滑处理,需要一个额外的摄像机运动补偿(CMC)模型和卡尔曼滤波来预测缺失位置。MAATrack通过只应用CMC模型简化了它,所有这些方法都应用了额外的模型,即单目标跟踪器,CMC,卡尔曼滤波,以换取性能的提高,相反,我们提出基于高斯过程回归(GPR)算法建模非线性运动,我们提出的GSI算法没有额外的耗时组件,实现了精度和效率之间的良好平衡。
与我们的GSI最相似的工作,它使用GPR算法平滑未插值的轨迹,以实现精确的速度预测,但是,它适用于监控视频中的事件检测任务,不同的是,我们研究MOT任务,采用GPR对插值定位进行细化,此外,我们提出了一个自适应平滑因子,而不是预先设置超参数。
3 StrongSORT
在本节中,我们提出了改进经典跟踪器DeepSORT的各种方法,具体来说,我们将在3.1节中回顾DeepSORT,并在3.2节中介绍StrongSORT。值得注意的是,我们在这一节中不声明任何算法的新奇之处,相反,我们在这里的贡献在于清晰地理解DeepSORT,并为它配备各种先进的技术来证明其范式的有效性。
3.1 DeepSORT综述
我们简单地将DeepSORT总结为两个分支框架,即外观分支和运动分支,如图2的上半部分所示。
在外貌分支中,给定每一帧的检测,应用在人再识别数据集MARS上预训练的深度外貌描述符(一个简单的CNN)来提取他们的外貌特征。它利用特征机制来存储每个tracklet最后100帧的特征,当出现新的检测时,第i个轨迹的特征库Ri与第j个检测的特征fj之间的最小余弦距离计算为
在关联过程中使用该距离作为匹配代价。
在运动分支中,卡尔曼滤波算法负责预测当前帧中轨迹的位置,然后,利用马氏距离(Mahalanobis distance)度量轨迹与检测之间的时空相似性,DeepSORT将这个运动距离作为一个阈值,过滤掉不可能的关联。
然后,提出了匹配级联算法,将关联任务作为一系列子问题来解决,而不是全局分配问题,其核心思想是为更常见的对象提供更高的匹配优先级,每个关联子问题都用匈牙利算法求解。
3.2加强DeepSORT
我们对DeepSORT的改进主要体现在两个分支上,如图2的下半部分所示。对于外观分支,采用更强的外观特征提取器BoT代替原来简单的CNN,以resnesst50为骨干,在DukeMTMCreID数据集上进行预训练,可以提取出更具鉴别性的特征,此外,我们将特征库替换为特征更新策略,以指数移动平均(EMA)的方式更新第i个轨迹在帧t处的外观状态eti,如下所示:
其中f ti为当前匹配检测的外观特征,α = 0.9为动量项,EMA更新策略不仅提高了匹配质量,而且减少了时间消耗。
对于运动分支,我们采用ECC进行摄像机运动补偿,此外,卡尔曼滤波器是脆弱的w.r.t,低质量检测,忽略检测噪声尺度的信息,为了解决这个问题,我们借鉴了NSA Kalman算法,该算法提出了一个自适应计算噪声协方差公式:
其中Rk为预设的恒定测量噪声协方差,ck为状态k下的检测置信度评分。
此外,我们在匹配过程中不是只使用外观特征距离,而是同时使用外观和运动信息来解决分配问题,成本矩阵C是外观成本Aa和运动成本Am的加权和,如下所示:
其中权重因子λ设为0.98,另一个有趣的发现是,尽管匹配级联算法在DeepSORT中并不简单,但随着跟踪器变得更强大,它限制了性能,原因是,随着跟踪器变得更强,它对易混淆的关联变得更健壮,因此,附加的先验约束会限制匹配精度,我们用全局线性分配代替匹配级联。
4 StrongSORT++
我们在第3节中介绍了一个强大的跟踪器,在本节中,我们将介绍两种轻量级、即插即用、模型无关、外观无关的算法,即AFLink和GSI,以进一步完善跟踪结果,我们将最后一个方法称为StrongSORT++,它将StrongSORT与这两种算法集成在一起。
4.1 AFLink
在一些研究中使用了tracklet的全局链接来追求高度精确的关联,然而,它们通常依赖计算成本高的组件和大量超参数进行微调,例如,GIAOTracker中的链接算法利用改进的ResNet50-TP来提取tracklets的3D特征,并与额外的空间和时间距离进行关联,这意味着需要对6个超参数(3个阈值和3个权重因子)进行微调,需要进行额外的调优实验,鲁棒性较差,此外,我们发现过度依赖外观特征容易受到噪声的影响,基于此,我们设计了一个无外观模型,AFLink,仅依靠时空信息预测两个tracklet之间的连通性。
图3显示了AFLink模型的两个分支框架,它采用两个轨迹Ti和Tj作为输入,其中T * = {fk, xk, yk}Nk=1由最近N = 30帧的帧fk和位置(xk, yk)组成。对于那些小于30帧的内容使用零填充。利用时间模块沿时间维以7 × 1核进行卷积来提取特征,然后,融合模块进行1 × 3的卷积,将f、x、y三个不同特征维度的信息进行整合,得到的两个特征映射分别被池化和压缩为特征向量,然后进行拼接,其中包含了丰富的时空信息,最后,利用MLP预测关联的置信度得分。注意,两个分支的时态模块和融合模块没有绑定。
在关联过程中,我们过滤掉了具有时空约束的不合理的轨迹对,然后,全局链接被求解为一个线性分配任务与预测的连接评分。
4.2 GSI
插值法被广泛应用于填补探测缺失造成的轨迹空白,线性插值由于其简单而非常受欢迎,然而,由于它不使用运动信息,其准确性是有限的,虽然已经提出了几种解决这一问题的策略,但它们通常引入额外的耗时模块,如单目标跟踪器、卡尔曼滤波、ECC,不同的是,我们提出了一种轻量级插值算法,该算法使用高斯过程回归来建模非线性运动。
我们建立第i个轨迹的GSI模型如下:
其中K(·,·)是一个基于K(·,·)的协方差函数,此外,超参数λ控制着轨迹的平滑性,这与轨迹的长度有关,我们简单地将其设计为一个自适应长度为l的函数,如下所示:
其中τ设置为10。
图4举例说明了GSI和线性插值(LI)之间的区别,原始跟踪结果(橙色)通常包括噪声抖动,LI(蓝色)忽略运动信息,我们的GSI(红色)通过自适应平滑因子平滑整个轨迹,同时解决了这两个问题。
5 Experiments
5.1数据集和评价指标
数据集 我们在“私有检测”协议下对MOT17和MOT20数据集进行了实验,MOT17是MOT常用的数据集,由7个序列,5316帧训练帧和7个序列,5919帧测试帧组成,MOT20专为高度拥挤的挑战性场景设置,共有4个镜头,8,931帧用于训练,4个镜头,4,479帧用于测试。
对于消融研究,我们将MOT17训练集中每个序列的前半部分用于训练,后半部分用于验证,我们使用DukeMTMC来预训练我们的外观特征提取器,在CrowdHuman数据集和MOT17半训练集上训练检测器,用于消融,添加了Cityperson和ETHZ进行测试。
评价指标 我们使用MOTA、IDs、IDF1、HOTA、AssA、DetA和FPS等指标来评估跟踪性能,MOTA是基于FP、FN和id计算的,更关注检测性能,相比之下,IDF1较好地度量了ID匹配的一致性,HOTA是检测分数DetA和关联分数AssA的显式组合,它将执行精确检测和关联的效果平衡为一个统一的度量,此外,它在预测框和GT边界框之间的多个不同的检测相似度值(0.05到0.95,间隔为0.05)下进行评估,而不是像MOTA和IDF1那样设置一个单一的值(即0.5),更好地考虑了定位精度。
5.2实现细节
对于检测,我们采用在COCO上预训练的YOLOX-X作为我们的检测器,以改进时间精度权衡,在推断中,非最大抑制(NMS)的阈值设置为0.8,检测置信度的阈值设置为0.6,对于StrongSORT,特征距离阈值为0.45,ECC的曲速模式为MOTION EUCLIDEAN,EMA的动量项α为0.9,外观成本λ的权重因子为0.98,对于GSI,插值允许的最大间隙为20帧,超参数τ为10。
对于AFLink,时间模块由4个7× 1核卷积层和输出通道组成,每个卷积后面都有一个BN层和一个ReLU激活层,融合模块包括一个1× 3卷积、一个BN和一个ReLU,它不会改变通道的数量,该分类器是一个MLP,有两个完全连接的层,中间插入一个ReLU层。训练数据是通过将带注释的轨迹切割成带有随机时空噪声的轨迹,正负样本比例为1:3。我们使用Adam作为优化器,交叉熵损失作为目标函数,用余弦退火学习速率计划训练它20个周期,整个训练过程只需要10多秒,在推理中,使用30帧的时间距离阈值和75像素的空间距离阈值来过滤不合理的关联对,最后,如果其预测得分大于0.95,则考虑关联,所有的实验都是在一台使用单一V100的服务器上进行的。
5.3消融研究
StrongSORT的消融研究 表1总结了从DeepSORT到StrongSORT的路径:
1)BoT:用BoT替换原始的特征提取器会显著改善IDF1,表明关联质量受益于更具辨别性的外观特征。
2) ECC: CMC模型的结果是IDF1和MOTA略有增加,这意味着它有助于提取更精确的运动信息。
3) NSA: NSA卡尔曼滤波改进了HOTA,但不能改进MOTA和IDF1,这意味着它提高了定位精度。
4) EMA: EMA特征更新机制带来的不仅是更好的关联,还有更快的速度。
5) MC:与外观和动作成本辅助协会相匹配。
6) woC:对于较强的跟踪器,具有冗余先验信息的匹配级联算法限制了跟踪精度,通过简单地使用匹配方法,IDF1得到了很大的改进。
AFLink和GSI的消融研究 我们将AFLink和GSI应用于6种不同的跟踪器,即3种版本的StrongSORT和3种最先进的跟踪器(CenterTrack、TransTrack和FairMOT),结果如表2所示。每个跟踪器的第一行结果是原始性能,AFLink(第二条线)的应用为不同的跟踪器带来了不同程度的改进,具体来说,较差的追踪者往往从AFLink中获益更多,因为他们丢失的关联更多,特别是CenterTrack的IDF1改进了3.7,每个跟踪器的第三行结果证明了GSI在检测和关联方面的有效性,与AFLink不同,GSI在更强的追踪器上工作得更好,表3比较了我们的GSI和LI,结果表明,GSI具有较好的性能,且计算成本较低。
5.4 MOTChallenge结果
我们将StrongSORT、StrongSORT+ (StrongSORT+AFLink)和StrongSORT++ (StrongSORT+AFLink+GSI)与MOT17和MOT20测试集上最先进的跟踪器进行比较,分别见表4和表5。值得注意的是,将FPS与绝对公平性进行比较是很困难的,因为每种方法所声称的速度取决于它们所实现的设备,而花费在检测上的时间通常被排除在逐个检测的跟踪器之外。
MOT17 在MOT17上发表的所有方法中,StrongSORT++ 在指标HOTA、IDF1、AssA、DetA方面排名第一,在MOTA、IDs方面排名第二,特别地,它产生了一个准确的关联,并比第二性能跟踪器的表现要好很多(即+2.2 IDF1和+2.4 AssA)。我们使用与消融研究中相同的超参数,并没有为每个序列仔细调整它们,测试集的稳定改进证明了我们方法的鲁棒性,值得注意的是,我们的再现版DeepSORT(具有更强的检测器和几个调优超参数)在基准测试上也表现良好,这证明了类DeepSORT跟踪范式的有效性。
MOT20 MOT20是来自更拥挤的场景,高拥挤意味着高风险的缺失检测和关联,StrongSORT++在HOTA、IDF1和AssA指标上仍然排名第一,它获得的id比其他追踪器要少得多,注意,我们使用了与MOT17中完全相同的超参数,这意味着我们的方法具有泛化能力,它的检测性能(MOTA和DetA)与几种跟踪器相比略差,我们认为这是因为我们使用了与MOT17中相同的检测评分阈值,这导致了许多漏检,具体来说,我们的StrongSORT++的度量FN(假阴性数)是117,920,而ByteTrack的度量FN只有87,594。
定性结果 图5显示了StrongSORT++在MOT17和MOT20测试集上的几个跟踪结果,MOT17-01的结果表明了我们的方法在正常情况下的有效性,从MOT17-08的结果中,我们可以看到模糊后正确的关联,MOT17-14的实验结果表明,该方法可以很好地保证摄像机在运动状态下的工作,此外,MOT17-04的结果显示,StrongSORT++在严重遮挡情况下具有优异的性能。
5.5局限性
StrongSORT和StrongSORT++仍然有一些局限性,主要问题是,与联合跟踪器和几种无外观的独立跟踪器相比,它们的运行速度相对较低。有必要进一步研究如何提高计算效率,此外,虽然我们的方法在指标IDF1和HOTA中排名第一,但MOTA略低,这主要是由于检测分数的阈值较高导致漏检较多,我们相信一个复杂的阈值策略或关联算法会有所帮助,而AFLink虽然在恢复缺失关联方面表现良好,但对于假关联问题却无能为力,具体来说,AFLink不能将ID混淆的轨迹分割为精确的轨迹,需要在未来的工作中制定更强大和更灵活的全局链接战略。
6 结论
本文对经典的跟踪器DeepSORT进行了回顾,并对其进行了多方面的改进,由此产生的StrongSORT在MOT17和MOT20基准上实现了新的SOTA,并证明了类deepsort范式的有效性,我们还提出了两种轻量级和无外观的算法来进一步优化跟踪结果,实验表明,它们可以应用于各种先进的跟踪器,并使其受益,而额外的计算成本可以忽略不计,我们的最终方法StrongSORT++在MOT17和MOT20上的HOTA和IDF1指标排名第一,并超过第二名1.3-2.2,值得注意的是,与关联跟踪器相比,我们的方法运行速度相对较慢,在未来,我们将进一步研究改进时间准确度平衡。
本文暂时没有评论,来添加一个吧(●'◡'●)