网站首页 > 技术文章 正文
arXiv论文 ”MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Long-Term Video Recognition“,在2022年1月20号上传,作者来自伯克利分校和Facebook AI。
虽然今天的视频识别系统准确地解析快照或短片段,但还不能连接点和在更长的时间范围内推理。大多数现有的视频架构只能处理<5秒的视频,这时候不会遇到计算或内存瓶颈。
本文提出一种新的策略来克服这一挑战。建议在线方式处理视频,并在每次迭代时缓存“记忆”,而不是像大多数现有方法那样一次处理更多帧。通过记忆,模型可以参考先前的上下文进行长期建模,只需付出微不足道的成本。基于这个想法,构建MeMViT,一个记忆增强的多尺度Vision Transformer,它的时间支持比现有模型长30倍,计算量仅增加4.5%;传统方法同样需要超过3000%的计算量。在广泛的设置中,MeMViT支持的时间支持增加了识别精度。MeMViT获得AVA、EPIC Kitchens-100动作分类和动作预期数据集的最新结果。代码和模型将公开。
Vision Transformers (ViT)
首先将图像嵌入N个不重叠的patch(使用strided 跨步卷积)并将其打包成张量X。然后,一堆Transformer层对这些patch之间的相互作用进行建模。Transformer层的中心部分是attention操作:首先线性地将输入张量X投影为查询Q、键K和值V
那么self-attention得到输出
如图是概述图:
Multiscale Vision Transformers (MViT)
基于两个简单的想法改进ViT。首先,MViT在整个网络中没有固定的N分辨率,而是通过多阶段学习多尺度表征,从较小patch(大N和小d)的细粒度建模开始,到后期较大patch(小N和大d)的高级建模。各阶段之间的过渡是通过跨步池化(strided pooling)来完成的。第二,MViT使用池化注意(pooling attention),集中Q、K和V的时空维度,大幅降低注意层的计算成本,即:
这里交换线性层和池化的次序,即
这允许线性层在较小的张量上操作,在不影响精度的情况下降低计算成本。如图是MViT的示意图:
如图是Multi Head pooling attention的示意图:
一种改进方法是在pooling attention中加入分解的相对positional embeddings 和残差 pooling connections,如图所示:
MeMViT 用于 Long-Term Modeling
将视频分割成一系列短的T x H x W片段,并按顺序处理它们(用于训练和推理)。连续迭代可以看到连续的片段。在每次迭代中缓存“记忆”,即处理过的片段的一些表征。在时间步长t,处理当前剪辑,模型可以访问早期迭代 t0<t 以前缓存的“记忆”,用于长期上下文。
如图即MeMViT一个概览图:左:模型概述;右:详细的MeMViT attention 设计。
MeMViT是一种用于长时视频识别的记忆增强多尺度Vision Transformer网络。MeMViT将长视频视为一系列短视频,并按顺序进行处理。从早期迭代中获得的“记忆”被缓存,以便处理当前短视频时MeMViT可以参考记忆。请注意,在当前迭代,缓存未压缩的记忆,这些记忆只会在下一次迭代中压缩。
Pipelined Memory Compression
该流水线的记忆压缩,其思路是这样的。虽然压缩模块fK和fV需要在未压缩的记忆上运行,并进行联合优化,以便模型学习需要保留的重要内容,但所学习的模块可以在所有过去的记忆中共享。因此,建议训练只压缩记忆一次一步,即:
同理于V。如下是MeMViT attention的实现伪代码:
一个吸引人的特性是,视频模型的感受野不仅随着M的增加而增加,而且随着层数L的增加而增加,因为每一层都会深入到过去,因此,时间感受野会随着深度的增加而分层次增加。
实验结果如下:
如图是scaling策略的比较:训练的GPU内存(图a)、推理的GPU内存(图b)、训练运行时间(图c)、推理运行时间(图d)和FLOPs (图e)方面,用MeMViT进行缩放比其他策略获得了显著更好的权衡,同时更精确(图f)。所有方法都使用相同的硬件和软件实现(广泛使用的“baseline scaling”策略通过增加输入的帧数T来增加视频模型的时域支持)。
泛化分析如下表:
和其他方法比较如下几个表格:
猜你喜欢
- 2024-10-12 「AAAI oral」阿里北大提出新attention建模框架
- 2024-10-12 CVPR 2020 | 港中文、上交大、商汤联合提出两种轨迹预测新方法
- 2024-10-12 东北石油大学研究者提出电能质量扰动识别的新方法
- 2024-10-12 「独家解读」谷歌会议app背景模糊和替换技术解析
- 2024-10-12 如何在深度学习模型内部做特征选择?
- 2024-10-12 深度时空网络、记忆网络与特征表达学习在 CTR 预估中的应用
- 2024-10-12 揭秘 BERT 火爆背后的功臣——Attention
- 2024-10-12 MViT:性能杠杠的多尺度ViT | ICCV 2021
- 2024-10-12 CTR预估系列(5)–阿里Deep Interest Network理论
- 2024-10-12 「论文阅读」 Residual Attention: Multi-Label Recognition
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)