YOLO跌落神坛?Mamba YOLO干翻YOLO系列模型!

0. 这篇文章干了啥？

近年来，深度学习得到了快速的发展，尤其是在计算机视觉领域，一系列强大的结构取得了令人瞩目的性能。从CNN和Transformer到Mamba架构，各种结构的应用都展示了它们在计算机视觉领域的强大潜力。

在目标检测的下游任务中，CNN和Transformer结构占据主导地位。CNN及其一系列改进在确保准确性的同时提供了快速的执行速度。然而，由于图像相关性较差，研究人员将Transformer引入目标检测领域，如DETR系列，它依靠自注意力机制的强大全局建模能力来解决CNN感受野较小的问题。幸运的是，随着硬件的进步，这种结构带来的计算量增加并不会造成太大问题。但是，近年来更多的工作开始重新思考如何设计CNN以加快模型速度，而且更多的从业者开始不满意Transformer结构的二次复杂度，开始使用混合结构来重构模型并降低复杂度，如MobileVit、EdgeVit、EfficientFormer。然而，混合模型也带来了问题，性能的明显下降也是一个关注点，因此，如何在性能和速度之间找到平衡一直是研究人员关注的问题。

YOLO系列一直是目标检测领域中具有里程碑意义的实时检测器。从YOLOv4开始，引入了CSPNet，YOLOv6开始整合重参数化技术，YOLOv7使用ELAN重建模型，而YOLOv8则采用了分离头部和无锚点设计。最近提出的YOLOv10将Transformer结构的元素融入其设计中，引入了部分自注意力（PSA）模块，旨在增强模型的全局建模能力同时控制计算成本。这证明了该系列一直具有强大的生命力。此外，CNN的结构赋予了模型强大的执行速度，许多实践者已经使用注意力机制来改进这一模型，以在其领域中实现所需的性能提升。

ViT-YOLO将 MHSA-Darknet 引入 YOLO，同时采用了增强的训练策略，如 TTA 和加权帧融合技术。然而，参数和 FLOPs 的增加并未带来预期的性能提升，这显示了 Transformer 在目标检测任务中，尤其是在 YOLO 中的可扩展性限制。YOLOS采用了一种基于原始 ViT 架构的最小化改造方案，用 DET 标记替换 ViT 中的 CLS 标记，并在集成预测方法中使用了二分匹配损失。然而，其性能令人失望，且对预训练方案非常敏感，YOLOS 在不同的预训练策略下表现出很大的变异性。Gold-YOLO提出了一种通过卷积和注意力原语提取和融合多尺度特征信息来增强融合的方法。然而，这些方法在整合 Transformer 结构时，放弃了其核心优势，即强大的全局注意力机制和长序列处理能力，而试图通过降低二次复杂度的减少来减少计算激增，这往往限制了模型的性能。

近年来，基于状态空间模型（SSMs）的方法，如Mamba，由于其对长距离依赖的强大建模能力和线性时间复杂度的优越性质，为解决这些问题提供了新的思路。令人兴奋的是，研究人员已经成功地将Mamba架构引入视觉领域，并在图像分类任务中取得了成功。受此启发，我们提出了一个问题：是否可以将SSM结构引入到目标检测领域，与当前的实时检测器相结合，从而利用SSM的优势并为YOLO系列带来新的性能提升？

本文提出了一种名为Mamba-YOLO的检测器模型。我们引入了ODSSBlock模块，将SSM结构应用于目标检测领域。与用于图像分类的VSSBlock不同，目标检测输入的图像像素更大，由于SSM模型通常用于文本序列建模，缺乏图像通道表达能力，我们提出了LSBlock来建模通道特征。得益于图像中更大的像素和更多的通道维度，我们提出了RGBlock结构，在SS2D输出之后进一步解码，利用点乘的高维表达来提升通道相关性。Mamba-YOLO在视觉识别和检测任务中是一个重要的进步，旨在构建一个结合SSM和CNN优势的新型骨干网络。该架构将基于SSM的状态空间转换模型应用于YOLO的各层，以有效捕获全局依赖关系，并利用局部卷积的优势提高检测精度和模型对复杂场景的理解能力，同时保持实时性能。这种混合架构有望突破现有视觉模型在处理大规模或高分辨率图像时的限制，并为下一代视觉基础模型提供强大而灵活的支持。我们在PASCAL VOC、COCO上进行了详尽的实验，结果表明，Mamba-YOLO在一般目标检测任务中非常具有竞争力，在MSCOCO上比基准YOLOv8的mAP提高了8.1%。

下面一起来阅读一下这项工作~

标题：Mamba YOLO: SSMs-Based YOLO For Object Detection

作者：Zeyu Wang, Chen Li, Huiying Xu, Xinzhong Zhu

机构：浙江师范大学、Geekplus

原文链接：https://arxiv.org/abs/2406.05835

代码链接：https://github.com/HZAI-ZJNU/Mamba-YOLO

在深度学习技术快速发展的推动下，YOLO系列为实时目标检测器设定了新的基准。研究人员在YOLO的基础上不断探索重参数化、高效层聚合网络和无锚点技术的创新应用。为了进一步提高检测性能，引入了基于Transformer的结构，显著扩大了模型的感受野并实现了显著的性能提升。然而，这种改进是有代价的，因为自注意力机制的二次复杂性增加了模型的计算负担。幸运的是，状态空间模型（SSM）作为一种创新技术的出现，有效地缓解了由二次复杂性引起的问题。鉴于这些进展，我们介绍了一种基于SSM的新型目标检测模型Mamba-YOLO。Mamba-YOLO不仅优化了SSM基础，还专门针对目标检测任务进行了适配。鉴于SSM在序列建模中的潜在限制，如感受野不足和图像局部性较弱，我们设计了LSBlock和RGBlock。这些模块使得能够更精确地捕获局部图像依赖关系，并显著增强了模型的鲁棒性。在公开可用的基准数据集COCO和VOC上的广泛实验结果表明，Mamba-YOLO在性能和竞争力方面都超越了现有的YOLO系列模型，展示了其巨大的潜力和竞争优势。

MSCOCO数据集上实时目标检测记录的比较。基于SSMs的目标检测方法在尺寸精度（右）和FLOP精度（左）方面具有显著优势。

? 我们提出了基于SSM的Mamba-YOLO，为YOLO在目标检测领域建立了新的基准，并为基于SSM的更高效、更有效的检测器的未来发展奠定了坚实的基础。

? 我们提出了ODSSBlock，其中LS Block有效地提取输入特征图的局部空间信息，以弥补SSM的局部建模能力。通过重新思考MLP层的设计，我们结合门控聚合的思想和具有残差连接的有效卷积，提出了RG Block，它有效地捕捉了局部依赖关系并增强了模型鲁棒性。

? 我们设计了一组不同规模的Mamba-YOLO（Tiny/Base/Large）模型，以支持不同大小和规模的任务的部署，并在两个数据集COCO和VOC上进行了实验，这表明我们的Mamba-YOLO与现有最先进的方法相比，在性能上取得了显著的改进。

Mamba YOLO的架构概述如图2所示。我们的目标检测模型被分为ODMamba的主干和颈部部分。ODMamba由简单的主干（Stem）和下采样块（Downsample Block）组成。在颈部部分，我们遵循PAN-FPN的设计，使用ODSSBlock模块替代C2f[42]来捕获更丰富的梯度信息流。主干首先通过主干模块进行下采样。随后，所有模型都由ODSSBlock和一个VisionClue合并模块组成，以进行进一步的下采样。在颈部部分，我们采用PAFPN的设计，使用ODSSBlock替换C2f，其中Conv仅负责下采样。

简单的主干（Simple Stem）：现代视觉转换器（ViTs）通常使用分段补丁作为其初始模块，将图像划分为不重叠的段。这种分割过程是通过一个核大小为4、步长为4的卷积操作实现的。然而，最近的研究，如EfficientFormerV2，表明这种方法可能会限制ViTs的优化能力，从而影响整体性能。为了在性能和效率之间取得平衡，我们提出了一种精简的主干层。我们不使用不重叠的补丁，而是使用两个步长为2、核大小为3的卷积。

在卷积神经网络（CNNs）和视觉转换器（ViT）结构中，通常使用卷积进行下采样，但我们发现这种方法会干扰SS2D在不同信息流阶段的选择性操作。为了解决这个问题，VMamba将2D特征图进行分割并使用1x1卷积来降低维度。我们的研究结果表明，为状态空间模型（SSMs）保留更多的视觉线索有助于模型训练。与传统的维度减半方法不同，我们通过以下步骤简化了这一过程：1）移除归一化；2）分割维度映射；3）将多余的特征图附加到通道维度；4）使用4x压缩的逐点卷积进行下采样。与步长为2的3x3卷积相比，我们的方法保留了SS2D从上一层选择的特征图。

如图4所示，ODSS Block是Mamba YOLO的核心模块，它在输入阶段进行了一系列处理，使网络能够学习更深层和更丰富的特征表示，同时通过批量归一化保持训练推理过程的高效和稳定。

表1展示了MS-COCO2017val数据集上与其他最先进的目标检测器的比较结果，其中本文提出的方法在FLOPs、Params和准确率之间取得了最佳的综合权衡。具体来说，Mamba YOLO-T在AP（平均精度）上比表现最好的轻量级模型DAMO YOLO-T/YOLO MS-XS有显著的3.4%/2.0%的提升，并且在与YOLOv8-S（基线模型，具有相近的准确率）相比时，Params减少了45.5%，FLOPs减少了50%。将Mamba YOLO-B与具有相似Params和FLOPs的Gold-YOLO-M进行比较，前者的AP增益比后者高4.5%。即使与具有相同准确率的Gold-YOLO-M相比，Params减少了47.2%，FLOPs减少了43.2%。在大模型中，Mamba YOLO-L也实现了比每个先进目标检测器更好或相似的性能。与表现最好的Gold-YOLO-L相比，Mamba YOLO-L的AP增加了0.3%，而Params减少了0.9%。上述比较结果表明，与现有最先进方法相比，我们提出的模型在不同规模的Mamba YOLO上均取得了显著改进。

在本节中，我们独立地检查了ODSS Block中的每个模块，并在没有Clue Merge的情况下，使用传统的Vision Transformers卷积方法进行下采样，以评估Vision Clue Merge对准确率的影响。我们在VOC0712数据集上对Mamba YOLO进行了消融实验，测试模型为Mamba YOLO-T。我们的结果如表2所示，线索合并保留了更多的视觉线索用于状态空间模型（SSM），同时也为ODSS块结构确实是最优的提供了证据。

RGBlock通过获取像素间的全局依赖和全局特征来捕获像素间的局部依赖。关于RG Block设计的细节，我们在多层感知器（MLP）的基础上还考虑了三种变体：1) 卷积MLP，它在原始MLP上添加了深度可分离卷积（DW-Conv）；2) 残差卷积MLP，它在原始MLP中以残差拼接的方式添加了DW-Conv；3) 门控MLP，一种在门控机制下设计的MLP变体。图5展示了这些变体，表3展示了在VOC0712数据集中原始MLP、RG Block和每个变体的性能，以验证我们对MLP的分析的有效性，测试模型为Mamba YOLO-T。我们观察到，单独引入卷积并不会导致性能的有效提升，而在图5(d)中的门控MLP变体中，其输出由两个元素乘法的线性投影组成，其中一个由残差连接的DWConv和门控激活函数组成，这实际上赋予了模型通过层次结构传播重要特征的能力，并有效提高了模型的准确性和鲁棒性。这个实验表明，在处理复杂的图像任务时，引入卷积的性能提升与门控聚合机制密切相关，前提是它们在残差连接的背景下应用。

为了评估我们提出的基于ssm的Mamba YOLO架构的优越性和良好的可扩展性，我们除了将其应用于目标检测领域外，还将其应用于实例分割任务。我们在Mamba YOLO-T的基础上采用了v8分割头，并在COCOseg数据集上进行了训练和测试，通过Bbox AP和Mask AP等指标评估了模型性能。Mamba YOLO-T-seg在各个尺寸上的性能都明显优于YOLOv5和YOLOv8的分割模型。RTMDet基于包含深度卷积大核的基本构建块，在动态标签分配过程中引入软标签来计算匹配成本，并在多个视觉任务中表现出色，而与此相比，Mamba YOLO-T-seg在Mask mAP上仍然保持了2.3的优势。

在本文中，我们重新分析了CNN和Transformer架构在目标检测领域的优缺点，并指出了它们融合的局限性。基于此，我们提出了一种基于状态空间模型架构的检测器，并通过YOLO进行扩展。我们重新分析了传统MLP的局限性，并提出了RG Block，其门控机制和深度卷积残差连接旨在使模型能够在层次结构中传播重要特征。此外，为了解决Mamba架构在捕获局部依赖性方面的局限性，LSBlock增强了捕获局部特征的能力，并将其与原始输入融合以增强特征的表示，从而显著提高了模型的检测能力。我们的目标是建立YOLOs的新基线，证明Mamba YOLO具有高度的竞争力。我们的工作是首次在实时目标检测任务中探索Mamba架构，我们也希望为该领域的研究人员带来新的思路。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

Tags：dwconv

网站首页 > 技术文章正文

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

YOLO跌落神坛?Mamba YOLO干翻YOLO系列模型!

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: