网站首页 > 技术文章正文

ETDS:等效变换与双流网络构建移动图像超分辨率(CVPR2023)

btikc 2024-12-08 12:25:44 技术文章 71 ℃ 0 评论

论文题目

Equivalent Transformation and Dual Stream Network Construction for Mobile Image Super-Resolution

1、简介

近年来，人们对移动设备上的实时超分辨率网络的需求越来越大。为了解决这个问题，人们提出了许多轻量级的超分辨率模型。然而，这些模型仍然包含耗时的组件，增加了推理延迟，限制了它们在移动设备上的实际应用。本文提出了一种基于等效变换和双流网络构造（ETDS）的单幅超分辨率模型。提出了ET方法，将费时的运算转换为移动设备上的时间友好型运算，如卷积和ReLU。在此基础上，设计了双流网络，减少了ET产生的冗余参数，增强了特征提取能力；充分利用ET的先进性和双流网络结构，开发了高效的SR模型移动设备ETDS。实验结果表明，在移动设备上，与以前的轻量级SR方法相比，ETDS实现了更高的推理速度和重构质量。

本文提出了等效变换（ET），这是一种通过将耗时的算子替换为时间友好的算子而不影响重建质量的方法，可以加快模型的速度。如图1所示，所提出的ET可以直接应用于现有模型（如ECBSR和ABPN），无需再训练即可减少推理延迟。然而，ET引入了一些冗余和不可学习的参数。为了充分利用这些参数，设计了双流网络，使冗余参数部分可学习，以提高特征提取能力。最后，提出了一种名为ETDS的移动图像SR模型，该模型在训练阶段采用双流网络，在推理阶段通过ET将其转换为等效的plain网络。如图1所示，ETDS不仅实现了较高的重构质量，而且保持了较低的推理延时。

本文的主要贡献如下：

1)提出了一种可以在不影响重建质量的情况下转换耗时算子并加快推理速度的方法ET，可以应用于现有的模型来加速推理。

2)设计了双流网络，通过使冗余参数部分可学习来减轻ET产生的冗余。

3)基于ET和双流网络，提出了一种高效、轻量级的移动设备实时SR网络ETDS。实验表明，配备ET的最先进模型的推理延迟最多降低80%，而ETDS的推理延迟降低34%，PSNR性能提高0.42dB。

2、背景

图像超分辨率（SR）的目的是将低分辨率图像（LR）重建成高分辨率图像（HR），人们提出了许多具有良好保真度和感知质量的深度学习方法。然而在SR应用日益普及的移动平台上，这些方法并不高效且轻量级。因此，有必要设计一种考虑到移动平台限制的方法，移动平台有一些限制，比如有限的RAM数量、较低的内存带宽、较低的计算速度和对许多常见深度学习层和算子的支持不足。考虑到其特殊性，最近提出的针对移动设备设计的SR模型采用整洁的拓扑作为基本模型，以确保较低的推理延迟。ABPN通过使用重复算子代替耗时的最近邻插值进一步提高了效率。然而，深入研究表明，在当前的移动SR模型中，一些耗时的组件，如全局残差连接和clip算子，对于整体重建质量是必不可少的。因此，为了加速移动设备上的推理，并获得具有竞争力的重构质量和推理延迟，有必要为这些耗时算子寻找时间友好的替代品。

3、方法

1）当前移动SR模型分析，为了为移动设备设计更高效的超分辨率模型，在两种最流行的手机soc上分析了当前移动SR模型的速度瓶颈。如表1所示，卷积和ReLU操作的推理延迟比大多数其他操作都要低，并且PixelShuffle比转置卷积更高效，这表明PixelShuffle和ReLU是移动平台上更好的选择，plain网络是指只包含时间友好型算子（即卷积、ReLU激活函数和PixelShuffle）的网络，在移动设备上具有较低的推理延迟。

将当前的移动模型转换为plain模型，可能会遇到以下挑战：

1)为了避免INT8量化模型中的重缩放问题，需要在模型的末尾添加clip算子。然而，clip操作符也很耗时（见表1），因此需要更高效、更等效的替代方法。

2)为了补偿移除全局残差连接所带来的PSNR性能下降，需要找到一种等价的方法将全局残差连接转化为有效算子。

为了解决这些问题，提出了ET算法，在不降低重建质量的前提下，将一些耗时的算子替换为时间友好的算子，从而提高了运行速度。

2）等效变换，卷积运算公式为z = W?x + b，其中x， z分别为输入张量和输出张量，W， b为卷积的核和偏置，k为核大小，ci， co为输入和输出通道数，h， W为输入高度和宽度。I是卷积运算的单位核，O是零元素的核，满足

对于输入特征和卷积核，连接操作要求除了连接维度之外的所有维度都是一致的。

同样，卷积核Wv，1和Wv，2在垂直方向上的串联操作，即输出维的串联，满足

ET表示repeat操作 给定一个输入张量x，重复算子repeat（x, n）通过沿通道维度复制输入n次来构造一个新的张量z，这个操作可以表示为一个卷积层，公式(1)和(3)产生

其中repeat（I, n）是常数，重复算子等价地转化为一个卷积层，其核和偏置分别为repeat（I, n）和零向量。

ET表示加操作符 add算子是指两个特征向量的逐元素相加操作，是残差连接不可缺少的一部分，即z = x + y，由式(1)(2)可得：

这样，加法运算符就等价地转化为一个具有连接运算符的卷积层，其核和偏置为[I， I]和一个零向量，这个提出的卷积层可以在以后通过重新参数化技术消除。

ET表示concat操作符 ，连接运算符总是跟随卷积层。将卷积-连接结构，即连接算子及其前面的卷积层进行集成，可以用Eq.(2)和式(3)将其简化如下：

根据Eq.(6)，将卷积-连接结构转化为连接-卷积结构，其核和偏置为：

其中，残差分支不存在卷积层时，可表示为：

当x = y时，Eq.(8)可进一步改写为：

ET表示clip操作符 clip操作符表示为：

避免了INT8量化模型归一化不匹配导致的精度损失和后续额外的反缩放操作。然而，如表1所示，在许多移动soc上，clip操作符非常耗时，因此非常有必要找到一个时间友好的剪辑操作符替代品。

为了等价地用ReLU变换clip操作符，将clip操作符重新表述为：

为了加速，进一步将其重写为：

使用Eq. (12)， clip算子被转换成两个带有ReLU的卷积，其核为- I， bias是一个所有元素都等于255的向量。注意，Eq.（12）中的第一个卷积层是通过重新参数化技术消除的。

等效plain模型转换的ET 如图2所示，通过ET将模型转换为等效的平面模型，方法如下：

?repeat操作符和加操作符分别转换为单个卷积操作符和连接操作符（参见步骤1和步骤2）。

?与前面两个分支的卷积的连接运算符转换为卷积。值得注意的是，全局残差连接不包含负值，因此省略了ReLU函数（参见步骤3）。

?使用重新参数化技术将前面步骤引入的两个卷积转换为卷积（参见步骤4）。

?将卷积-连接结构转换为连接-卷积结构，从而将连接运算符转换并向前移动，直到到达残差连接的起点，即x = y。在这种情况下，进一步消除连接运算符（参见步骤5和步骤6）。

?clip操作符转换为卷积（见步骤7）。

虽然ET通过将耗时的算子转换为时间友好的算子来加快推理速度，但它引入了一些冗余参数。例如，在由Eq.(8)导出的变换后的卷积核图（W， I）中，所有可学习的参数都出现在W中。如果有效地利用冗余参数，可以获得更好的重构性能。

3）双流网络，为了减轻ET参数冗余的副作用，设计了一个双流网络，其中两个分支分别学习图像的低频和高频内容，并利用参数来实现，(8)式变换后的卷积核为

式中，Kb和Kr分别表示构成主干分支和残差分支的模块。Kr2b是残支向主干分支传递信息的模块，Kb2r是反向传递信息的模块。由Kr组成的残差分支和Kb组成的主干分支分别提取低频和高频信息。

最初，Kr， Kr2b和Kb2r是不可学的。进一步分析了可学习对重构质量可能产生的影响，发现当Kr和Kr2b可学习时，它们可以更有效地提取低频信息，并将更多的残差信息传递给主干分支。然而，当Kb2r可学习时，主干分支可能会考虑不太重要的低频信息，这减少了提取高频成分的参数数量，并可能影响性能。

如图3所示，双流网络中的Kr和Kr2b包含可学习的参数，而Kb2r中的参数是固定的。在训练阶段，鼓励残差支路学习尽可能多的低频内容，即使残差支路输出（ILF）与真值（IGT）之间的L1距离最小：

主干分支学习高频内容，其输出（IHF）补偿IGT和ILF之间的间隙：

为了训练双流网络，使用整体损失函数：

从而驱动更多的参数提取高频内容，提高整体性能。在推理阶段，如图3所示，双流网络可以等效转换为普通网络，从而保证了较低的推理延迟。

4、实验

1）不同SR模型在5个基准数据集上的性能比较

2）每个算子的消融操作

3）不同ETDS-M变体的PSNR/SSIM结果

4）Set5上×4任务实时SR模型的定性比较

上一篇：手把手教你如何开启 RTX VSR视频超分辨率技术解析
下一篇： PlainUSR:追逐更快的ConvNet以获得高效的超分辨率(ACCV2024)

网站首页 > 技术文章正文

ETDS:等效变换与双流网络构建移动图像超分辨率(CVPR2023)

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

ETDS:等效变换与双流网络构建移动图像超分辨率(CVPR2023)

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: