计算机系统应用教程网站

网站首页 > 技术文章 正文

MeMViT:记忆增强的多尺度ViT做长时视频识别

btikc 2024-10-12 11:00:50 技术文章 13 ℃ 0 评论

arXiv论文 ”MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition“,在2022年1月20号上传,作者来自伯克利分校和Facebook AI。

虽然今天的视频识别系统准确地解析快照或短片段,但还不能连接点和在更长的时间范围内推理。大多数现有的视频架构只能处理<5秒的视频,这时候不会遇到计算或内存瓶颈。


本文提出一种新的策略来克服这一挑战。建议在线方式处理视频,并在每次迭代时缓存“记忆”,而不是像大多数现有方法那样一次处理更多帧。通过记忆,模型可以参考先前的上下文进行长期建模,只需付出微不足道的成本。基于这个想法,构建MeMViT,一个记忆增强的多尺度Vision Transformer,它的时间支持比现有模型长30倍,计算量仅增加4.5%;传统方法同样需要超过3000%的计算量。在广泛的设置中,MeMViT支持的时间支持增加了识别精度。MeMViT获得AVA、EPIC Kitchens-100动作分类和动作预期数据集的最新结果。代码和模型将公开。


Vision Transformers (ViT)

首先将图像嵌入N个不重叠的patch(使用strided 跨步卷积)并将其打包成张量X。然后,一堆Transformer层对这些patch之间的相互作用进行建模。Transformer层的中心部分是attention操作:首先线性地将输入张量X投影为查询Q、键K和值V

那么self-attention得到输出

如图是概述图:

Multiscale Vision Transformers (MViT)

基于两个简单的想法改进ViT。首先,MViT在整个网络中没有固定的N分辨率,而是通过多阶段学习多尺度表征,从较小patch(大N和小d)的细粒度建模开始,到后期较大patch(小N和大d)的高级建模。各阶段之间的过渡是通过跨步池化(strided pooling)来完成的。第二,MViT使用池化注意(pooling attention),集中Q、K和V的时空维度,大幅降低注意层的计算成本,即:

这里交换线性层和池化的次序,即

这允许线性层在较小的张量上操作,在不影响精度的情况下降低计算成本。如图是MViT的示意图:

如图是Multi Head pooling attention的示意图:


一种改进方法是在pooling attention中加入分解的相对positional embeddings 和残差 pooling connections,如图所示:

MeMViT 用于 Long-Term Modeling

将视频分割成一系列短的T x H x W片段,并按顺序处理它们(用于训练和推理)。连续迭代可以看到连续的片段。在每次迭代中缓存“记忆”,即处理过的片段的一些表征。在时间步长t,处理当前剪辑,模型可以访问早期迭代 t0<t 以前缓存的“记忆”,用于长期上下文。


如图即MeMViT一个概览图:左:模型概述;右:详细的MeMViT attention 设计。

MeMViT是一种用于长时视频识别的记忆增强多尺度Vision Transformer网络。MeMViT将长视频视为一系列短视频,并按顺序进行处理。从早期迭代中获得的“记忆”被缓存,以便处理当前短视频时MeMViT可以参考记忆。请注意,在当前迭代,缓存未压缩的记忆,这些记忆只会在下一次迭代中压缩。

Pipelined Memory Compression

该流水线的记忆压缩,其思路是这样的。虽然压缩模块fK和fV需要在未压缩的记忆上运行,并进行联合优化,以便模型学习需要保留的重要内容,但所学习的模块可以在所有过去的记忆中共享。因此,建议训练只压缩记忆一次一步,即:

同理于V。如下是MeMViT attention的实现伪代码:

一个吸引人的特性是,视频模型的感受野不仅随着M的增加而增加,而且随着层数L的增加而增加,因为每一层都会深入到过去,因此,时间感受野会随着深度的增加而分层次增加。


实验结果如下:


如图是scaling策略的比较:训练的GPU内存(图a)、推理的GPU内存(图b)、训练运行时间(图c)、推理运行时间(图d)和FLOPs (图e)方面,用MeMViT进行缩放比其他策略获得了显著更好的权衡,同时更精确(图f)。所有方法都使用相同的硬件和软件实现(广泛使用的“baseline scaling”策略通过增加输入的帧数T来增加视频模型的时域支持)。


泛化分析如下表:


和其他方法比较如下几个表格:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表