网站首页 > 技术文章正文

TrackSSM:使用状态空间模型打造最强多目标跟踪!全部SOTA!

btikc 2024-12-15 11:31:50 技术文章 25 ℃ 0 评论

来源：计算机视觉工坊

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

复杂线性与非线性运动建模一直是多目标跟踪（MOT）任务中的关键问题。对于运动强度大的场景，如舞蹈场景、体育赛事和自动驾驶，鲁棒且高效的运动建模已成为高性能跟踪器不可或缺的组成部分。尽管先前的跟踪器在多个基准测试中取得了先进性能，但针对不同场景的鲁棒且高效的运动建模仍然是一个重大挑战。

成功的运动建模需要确保以下两点：1) 对各种运动模式的鲁棒性；2) 高推理效率。MOT中的主流运动模型采用卡尔曼滤波器，它基于恒速假设且独立于数据。它通常使用恒速运动方程来计算轨迹的先验状态，并使用匹配的观察结果来更新该状态，以预测轨迹在下一时间步的位置。然而，当目标的实际运动显著偏离运动先验时，可能会导致错误的轨迹关联。一些方法使用基于注意力的自回归方法进行轨迹的时间传播，并在非线性运动场景中表现出优越性能。但随着跟踪目标的数量增加，基于注意力的自回归建模导致计算成本呈二次方增长。

此外，一些方法采用卷积神经网络（CNN）进行时间自回归建模，并将它们与同一框架内的检测网络相结合，形成孪生或共享参数网络。虽然这些方法提高了计算效率，但可能会导致跟踪和检测任务之间的特征冲突，从而降低检测性能。

最近，状态空间模型（SSM）由于其序列信息的有效计算和状态转移的有效建模，在高效处理长序列任务方面取得了广泛成功。受SSM启发，我们提出了一种基于数据依赖SSM的统一运动框架，命名为TrackSSM。它遵循编码器-解码器架构。编码器由堆叠的朴素Mamba模块组成，这些模块聚合历史轨迹的位置和运动表示以获得轨迹流信息。解码器由我们提出的Flow-SSM中的级联运动解码模块组成，这些模块可以利用编码器获得的流信息来指导当前帧轨迹的时间位置预测。

此外，为了提高轨迹位置预测的准确性，我们提出了一种逐步线性（S2L）训练策略。通过在当前帧和前一帧之间的轨迹位置进行线性插值，我们构建了逐步线性的训练伪标签，引导边界框以渐进线性的方式完成时间过渡。与Mamba相比，我们使用从历史轨迹编码得到的流信息对SSM进行参数化，从而得到Flow-SSM。它有效地处理了各种线性和非线性运动目标位置转换。得益于Mamba模块的高效计算，TrackSSM与YOLOX-l检测器的推理速度可达27.5 FPS，超过了大多数基于注意力的时间自回归运动模型。在固定检测器模型和超参数配置的情况下，配备YOLOX-x检测器的TrackSSM在MOT17测试集上的性能与使用卡尔曼滤波器（KF）作为运动模型的基线ByteTrack相当。在DanceTrack测试集上，集成了TrackSSM的ByteTrack实现了57.7 HOTA的跟踪性能，比基线高出+10.9 HOTA。在SportsMOT测试集上，配备TrackSSM的ByteTrack实现了74.4 HOTA的跟踪性能，比基线高出+11.0 HOTA。值得注意的是，与检测器配对的TrackSSM能够以实时速度进行推理，并产生较少的计算开销。在不同基准测试集上的实验结果表明，TrackSSM有望成为多目标跟踪任务中的通用运动框架。

下面一起来阅读一下这项工作~

1. 论文信息

标题：TrackSSM: A General Motion Predictor by State-Space Model

作者：Bin Hu, Run Luo, Zelin Liu, Cheng Wang, Wenyu Liu

机构：华中科技大学

原文链接：https://arxiv.org/abs/2409.00487

2. 摘要

时间运动建模一直是多目标跟踪(MOT)中的一个关键部分，它可以确保平滑的轨迹运动，并提供精确的位置信息以提高关联精度。然而，当前的运动模型难以在不同的应用场景中既高效又有效。为此，我们受最近流行的状态空间模型(SSM)的启发，提出了TrackSSM，这是一个统一的编码器-解码器运动框架，使用数据相关的状态空间模型来执行轨迹的时间运动。具体来说，我们提出了流SSM，一个利用历史轨迹的位置和运动信息来指导对象边界框的时间状态转换的模块。基于流SSM，我们设计了一个流解码器。它由采用流SSM的级联运动解码模块组成，该模块可以使用编码的流信息来完成轨迹的时间位置预测。此外，我们提出了一个逐步线性(S2l)培训策略。通过对物体在前一帧和当前帧的位置进行线性插值，构造出逐步线性训练的伪标签，保证了轨迹流信息能够更好地引导物体包围盒完成时间过渡。TrackSSM利用简单的Mamba块来为历史轨迹构建运动编码器，结合流解码器形成具有编码器-解码器结构的时间运动模型。TrackSSM适用于各种跟踪场景，并在多个基准上实现了出色的跟踪性能，进一步扩展了类SSM时间运动模型在多目标跟踪任务中的潜力。

3. 主要贡献

我们的贡献总结如下：

? 我们提出了Flow-SSM模块，该模块使用编码器生成的流信息来指导对象边界框的时间状态转换。

? 基于Flow-SSM，我们设计了流解码器，该解码器可以利用历史帧轨迹的流信息进行时间位置预测。

? 我们提出了一种逐步线性（S2L）训练策略。通过对轨迹位置进行线性插值，我们构建了逐步线性的训练伪标签，确保历史帧轨迹的流信息能够更准确地引导对象边界框进行时间预测。推荐学习：国内首个面向自动驾驶目标检测领域的Transformer原理与实战课程

? 结合上述设计，我们提出了TrackSSM，一个具有编码器-解码器结构的简单且有效的运动模型。TrackSSM适用于各种跟踪场景，并在多个跟踪基准测试中表现出色。

4. 基本原理是啥？

通过TrackSSM运动模型的跟踪整体框架如图1所示。给定n个历史帧的轨迹位置和运动信息{T_i-k = (x_c, y_c, w, h, Δx, Δy, Δw, Δh)}{k=0}{n}，我们将每个时间步的轨迹信息T_i-k编码为轨迹嵌入T_i-k ∈ Rm，形成一系列轨迹嵌入{T_i-k}{k=0}{n}。然后将嵌入序列输入到朴素的Mamba编码器[20]中，最终时间步的输出表示作为轨迹的运动流信息，我们称之为流特征F ∈ Rm。流特征包含了轨迹在位置和运动方面的丰富历史信息。

随后，我们使用流特征F作为指导，将其输入到设计的流解码器中，以指导轨迹框B_i预测其位置B_i+1，从而在时间(i+1)时获得预测轨迹框。在跟踪阶段，预测轨迹框B_i+1与检测器获得的检测框D_i+1相关联，关联过程类似于ByteTrack中的过程。

5. 实验结果

6. 总结 & 未来工作

我们提出了一种简单高效的、具有编码器-解码器结构的运动模型TrackSSM。它使用朴素的Mamba模块构建编码器，将历史轨迹的位置和运动信息转换为流特征。在解码阶段，为了增强拟合非线性运动的能力，我们引入了Flow-SSM。它使用流特征作为指导，有助于轨迹框的精确时间自回归。为了进一步提高轨迹预测的准确性，我们精心设计了流解码器，它由多个相同的解码器层级联而成，以逐步细化轨迹框。

此外，我们还提出了一种逐步线性训练策略（S2L），该策略将轨迹框的回归过程线性分解为几个简单的变换步骤。这一策略增强了TrackSSM在建模丢失轨迹和复杂运动轨迹方面的能力。与流行的卡尔曼滤波运动模型相比，TrackSSM适应各种场景中的对象运动，并为跟踪器提供精确的轨迹预测。与使用注意力机制的运动模型相比，TrackSSM以更低的计算开销实现了显著的运动预测能力，展示了其效率和鲁棒性。

未来，我们将继续在时空维度上探索类似SSM的跟踪模型的潜力，而不仅仅是在时间维度上。我们也希望这项工作能激发基于SSM的解码器结构的设计灵感，并期待更优雅的方法的发展。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉知识星球

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com
— 完 —

Tags：目标检测框架

上一篇：论文赏析|CVPR 2024 | 主动域自适应目标检测首篇!
下一篇： Drone-YOLO:一种有效的无人机图像目标检测

网站首页 > 技术文章正文

TrackSSM:使用状态空间模型打造最强多目标跟踪!全部SOTA!

3D视觉模组选型：www.3dcver.com
— 完 —

Tags：目标检测框架

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

TrackSSM:使用状态空间模型打造最强多目标跟踪!全部SOTA!

3D视觉模组选型：www.3dcver.com— 完 — Tags：目标检测框架

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

3D视觉模组选型：www.3dcver.com
— 完 —

Tags：目标检测框架

取消回复欢迎你发表评论: