基于YOLOv7和DeepSORT的视频目标跟踪

搜论文的时候看到了，没撒创新点，当是一篇实验笔记吧

论文题目：

Video object tracking based on YOLOv7 and DeepSORT

论文地址：

https://arxiv.org/abs/2207.12202

摘要-多目标跟踪(MOT)是计算机视觉领域的一项重要技术，广泛应用于自动驾驶、智能监控、行为识别等方向，在目前流行的基于深度学习的MOT方法中，基于检测的跟踪(Detection based Tracking, DBT)是工业上应用最广泛的方法，其性能取决于其目标检测网络，目前性能较好、应用最广泛的DBT算法是YOLOv5-DeepSORT，受到YOLOv5-DeepSORT的启发，结合YOLOv7网络在目标检测方面的优势，将YOLOv7作为目标检测部分应用到DeepSORT中，提出YOLOv7-DeepSORT，经过实验评价，与之前的YOLOv5-DeepSORT相比，YOLOv7-DeepSORT的跟踪精度更高。

索引-多目标跟踪目标检测;DeepSORT;YOLO;

1 简介

多目标跟踪(Multiple object tracking, MOT)一般是指在不事先知道目标数量的情况下，对视频中的多个目标进行检测和身份跟踪，如行人、汽车、动物等，不同的目标具有不同的id，以实现后续的轨迹预测、精确搜索等工作，MOT是计算机视觉领域的一项重要技术，广泛应用于自动驾驶、智能监控、行为识别等方向，在MOT中，我们不仅要面对单目标跟踪中遮挡、变形、运动模糊、拥挤场景、快速运动、光照变化、尺度变化等挑战，还要面对轨迹初始化与终止、相似目标之间相互干扰等复杂问题，因此，MOT仍是图像处理领域一个极具挑战性的方向，吸引了众多研究者的长期投入。

视觉目标跟踪的发展时间并不长，主要是近十年来发展起来的，早期的经典方法包括Meanshift和粒子滤波，但这些算法的整体精度较低，且主要是单目标跟踪，难以满足复杂场景的要求，近年来，随着深度学习的快速发展，目标检测的性能得到了突飞猛进的提高，基于检测的跟踪(detection - based tracking, DBT)方案也应运而生，它迅速成为当前MOT的主流框架，极大地促进了MOT任务的进展，与此同时，近年来，基于检测和跟踪的联合框架和基于注意机制的框架开始引起研究人员的关注。

2 相关工作

当前的MOT框架可分为三种类型:基于检测跟踪的MOT、基于检测跟踪联合的MOT和基于注意机制的MOT，第一种方法在工业上应用更为广泛。

DBT框架的过程是:首先检测视频序列的每一帧中的目标，根据边界框切割目标，得到图像中的所有目标，然后，将其转化为前后帧之间的目标相关性问题，通过iou、外观特征等构造相似矩阵，并采用匈牙利算法、贪婪算法等求解，这种算法的跟踪效果取决于其目标检测网络的性能，目前使用最多的检测网络是YOLO系列网络，如YOLOv3， YOLOv4， YOLOv5。SORT和DeepSORT是业内最受关注的跟踪算法，SORT算法的核心是卡尔曼滤波和匈牙利匹配，利用卡尔曼滤波对目标位置进行预测，利用匈牙利匹配法将目标检测网络的预测结果与卡尔曼滤波的预测结果进行匹配，SORT是一种实用的MOT算法，然而，由于现实中目标运动的变化和频繁的遮挡，该算法存在大量的身份切换，因此，研究人员在其基础上增加了级联匹配等函数，提出了性能更好的DeepSORT。

基于检测与跟踪联合的MOT结合了检测与跟踪的框架，这种算法一般先检测视频相邻的两帧，然后用不同的策略来判断两帧同时存在的目标的相似度，从而进行跟踪和预测，典型算法包括D&T、MOTDT、FairMOT、CenterTrack等。

基于注意机制的MOT是将transformer应用于MOT，目前主要有TransTrack和TrackFormer，TransTrack以当前帧的特征映射为Key，将上一帧的目标特征Query和从当前帧学习到的一组目标特征Query作为全网的输入Query。

3 YOLOV7-DEEPSORT

A. YOLOv7

YOLOv7是YOLO系列的最新作品，该网络在之前工作的基础上进一步提高了检测速度和准确性，具体而言，在整体架构方面，本文提出了E-ELAN，采用扩展、混洗、合并的cardinality，实现了在不破坏原有梯度路径的情况下不断增强网络学习能力的能力，E-ELAN可以引导不同组的计算块学习不同的特征，本文还提出了一种复合模型缩放方法，以保持模型在初始设计时的特性和保持最优结构。

在网络优化策略方面，介绍了模型重参数化和动态标签分配方法，分析了它们存在的问题，并进行了改进，对于前者，作者认为由于RepConv具有身份连接，直接访问ResNet或DenseNet的级联将为不同的特征图提供更多的梯度多样性，从而破坏网络结构，因此，作者在RepConv中去掉了恒等连接，设计了规划好的重参数化卷积，实现了重参数化卷积与不同网络的高效结合，对于后者，作者采用深度监督的思想，并在网络中间层额外增加一个辅助头结构作为辅助损失来引导浅网络的权重，针对这种结构设计了一种新的标签分配方法。

B. DeepSORT

SORT算法使用简单的卡尔曼滤波处理逐帧数据的相关性，并使用匈牙利算法测量相关性，该算法在高帧率下取得了良好的性能，但由于SORT算法忽略了被检测目标的外观特征，只有在目标状态估计的不确定度较低的情况下才会准确，此外，为了提高跟踪效率，SORT在连续帧中删除未匹配的目标器，但这造成了ID切换的问题，即分配给目标器的ID容易不断变化。

因此，DeepSORT增加了外貌信息，并借用ReID模型提取外貌特征，减少了45%的ID切换数量，DeepSORT还将基于IoU成本矩阵的SORT匹配机制转化为级联匹配IoU匹配机制，具体而言，匹配级联的核心思想是对长期遮挡目标中出现频率较高的目标给予更高的跟踪匹配优先级，该方法解决了长期遮挡目标的匹配问题，DeepSORT在匹配的最后阶段对未匹配的轨迹和检测目标进行IoU匹配，可以缓解明显突变或部分遮挡引起的较大变化，此外，DeepSORT借用了ReID模型，要求从目标检测网络的输出中嵌入具有良好区分性的特征，以计算相似性。

C. YOLOv7-DeepSORT

考虑到YOLOv7在目标检测任务中的优异性能，我们参照YOLOv5-DeepSORT，将YOLOv7替换为网络的目标检测模型，得到YOLOv7-DeepSORT，YOLOv7-DeepSORT的操作流程如图1所示，网络分别训练YOLOv7和ReID。

4 实验

在实验部分，我们评估了YOLOv7-DeepSORT在MOT16挑战的02、04、05、09、10、11、13序列上的性能，并与YOLOv5-DeepSORT进行了比较，在DeepSORT部分，两者的参数被设置为完全相同，其中，目标检测部分使用的模型有YOLOv7、YOLOv5s、YOLOv5m、YOLOv5l，均采用官方预训练模型(YOLOv5版本为r6.1)，实验在GTX 3080Ti上完成。

实验中使用的评价指标如下:

MOTA:多目标跟踪精度，结合了三个错误来源:假阳性、丢失目标和身份切换。

MOTP:多目标跟踪精度:根据真实位置和检测位置之间的包围框重叠来总结总体跟踪精度。

IDF1: IDF1 Score，正确识别的检测与真实检测和计算检测的平均数量之比。

IDs: ID切换数量。

ML:大部分是丢失的目标，被轨迹假设最多覆盖其各自寿命的20%的真实轨迹的比例。

MT:主要是跟踪目标，被轨迹假设覆盖至少80%各自寿命的真实轨迹的比例。

FP:误报的总数。

FN:误报(丢失目标)的总数。

实验结果如表1所示。

从表1可以看出，在MOTA、MOTP和IDF1中，YOLOv7-DeepSORT(以下简称YOLOv7)比YOLOv5DeepSORT(以下简称YOLOv5s/m/l)的跟踪精度确实更好，对于ID切换，YOLOv7优于YOLOv5l，对于ML和MT, YOLOv7略差于YOLOv5l，优于YOLOv5s和YOLOv5m，对目标有较好的跟踪效果，总体而言，与YOLOv5-DeepSORT相比，YOLOv7-DeepSORT的跟踪精度有明显提高。

5 结论

将YOLOv7作为目标检测网络加入到DeepSORT中，得到YOLOv7-DeepSORT，实验表明，该网络比YOLOv5DeepSORT具有更好的跟踪精度，由于YOLOv7和DeepSORT具有良好的泛化能力，YOLOv7-DeepSORT也适用于各种目标跟踪任务。

网站首页 > 技术文章正文

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

基于YOLOv7和DeepSORT的视频目标跟踪

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: