计算机系统应用教程网站

网站首页 > 技术文章 正文

SMFANet:高效图像超分辨率特征聚合网络(ECCV2024)

btikc 2024-12-08 12:25:54 技术文章 79 ℃ 0 评论

论文题目

SMFANet: A Lightweight Self-Modulation Feature Aggregation Network for Efficient Image Super-Resolution

1、简介

基于变压器的复原方法具有显著的性能,因为变压器的自关注(self-attention, SA)可以探索非局部信息,从而获得更好的高分辨率图像重建。然而,关键的点积SA需要大量的计算资源,这限制了它在低功耗器件中的应用。此外,SA机制的低通特性限制了其捕获局部细节的能力,从而导致平滑的重建结果。为了解决这些问题,提出了一个自调制特征聚合(SMFA)模块,以协同利用局部和非局部特征相互作用,以获得更准确的重建。具体来说,SMFA模块采用了一种有效的近似自关注(EASA)分支来建模非局部信息,并使用局部细节估计(LDE)分支来捕获局部细节。此外进一步引入了基于部分卷积的前馈网络(PCFN)来改进SMFA的代表性特征。大量实验表明,所提出的SMF =ANet家族在公共基准数据集上实现了更好的重建性能和计算效率之间的权衡。特别是,与×4 SwinIR-light相比,SMFANet+在五个公共测试集上的平均性能提高了0.14dB,运行时间提高了×10倍,而模型复杂性(例如,FLOPs)仅为前者的43%。

最近的研究表明,vit有利于学习低频分量,从而导致重建结果平滑。因此,这些限制促使我们思考:是否有可能开发一种有效的特征调制块,以类似于sa的方式探索非局部信息,同时为有效的图像超分辨率建模局部细节?为此提出了一个自调制特征聚合(SMFa)模块,该模块包含一个有效的近似自注意(EASA)分支来利用非局部信息,以及一个局部细节估计(LDE)分支来利用非局部信息为局部特征建模。在EASA分支上,通过降采样运算获取低频内容,计算输入特征的全局方差,对处理后的低频特征进行调制,然后利用调制后的特征自适应聚合输入特征。由于EASA优先考虑非局部结构信息探索,使用带有卷积层的LDE分支来并行捕获局部特征。此外开发了一个高效的基于部分卷积的前馈网络(PCFN),该网络在空间和信道维度上进一步细化了SMF A的代表性特征。将提出的SMFA模块和PCFN组成一个端到端的可训练网络,称为SMFANet,以解决SISR。大量实验表明,所提出的SMF ANet在计算效率和重建性能之间取得了良好的平衡(见图1)。

主要贡献如下:

-开发了一个高效的SMFA模块来提取代表性特征,其中EASA分支用于探索非局部信息,LDE分支用于捕获局部特征。

-提出了一种轻量级的PCFN,以进一步完善SMFA在空间和通道维度上的特征。

-在公共基准数据集上对我们提出的SMFANet进行了定量和定性评估,结果表明在模型复杂性和重建性能之间实现了良好的权衡。

2、背景

单图像超分辨率(SISR)是指从给定的降级的低分辨率(LR)对应图像中恢复高分辨率(HR)图像。SISR的病态性质Task使得传统的手工制作的基于先验的方法或基于插值的方法很难很好地解决这个问题。

在过去的十年里,深度学习已经彻底改变了SISR领域。各种卷积神经网络(cnn)已经被开发来解决这个问题。卷积算子作为cnn的基本运算,具有平移不变性,且接受域有限,限制了其对非局部信息的建模能力。为了更好地恢复图像,基于cnn的方法变得越来越深,越来越大,以增强表示能力。这些大容量的网络消耗了很高的计算成本,例如RCAN有15.59万个参数,超过400层,无法应用于资源有限的设备,例如智能手机。

最近,视觉转换器(vision Transformer, ViT)在高阶视觉任务和低阶视觉任务上都取得了令人瞩目的成功,因为ViT中的自注意(self-attention, SA)机制可以有效地建模非局部信息。但是,SA机制需要大量的计算资源和内存消耗。为了降低计算成本,基于窗口的自关注、转置SA和权复用策略被开发出来以减轻计算负担。然而,这些仍然需要很长时间来学习图像超分辨率的特征依赖关系。

3、方法

1)总体架构,目标是开发一个简单而有效的CNN模型来协同探索局部和非局部特征信息,以获得准确的图像超分辨率。首先开发了一个自调制特征聚合(SMFA)模块来有效地利用代表性特征,其中基于特征调制的高效近似自注意(EASA)模块用于非局部特征交互,而额外的局部细节估计(LDE)分支用于局部信息探索。为了改进SMFA层生成的特征,进一步引入了基于部分卷积的前馈网络(PCFN)。将这些组件合并成一个统一的单元更关注信息丰富的区域,以便更好地重建。图2展示了SMFANet的整体架构。它以低分辨率图像作为输入,并使用3×3卷积层提取浅层特征。然后将提取的浅层特征馈送到一系列特征调制块(FMB)中以产生深度代表性特征,其中FMB由自调制特征聚合(SMFA)模块和基于部分卷积的前馈网络(PCFN)组成。在特征调制块之后,通过图像重构模块对代表性特征进行处理,重构出高质量的输出。为了使重建模块尽可能轻量化,使用3×3卷积层将通道尺寸转换为适应上采样比的特定尺寸,并使用PixelShuffle层进行放大。为了便于高频信息的学习,在图像重建模块之前插入了一个全局残差连接。

2)自调制特征聚合(SMFA),挖掘非局部信息是图像SR重建的重要内容。基于vit的SR方法利用各种自注意机制来探索非局部信息,然而这些自注意变体在计算上是昂贵的,并且建模局部细节的能力有限,因为它们的低通滤波器特性使它们优先捕获低频信息。为了解决这个问题,开发了一个轻量级的自调制特征聚合(SMFA)模块来协作建模局部和非局部特征,以实现准确的重建。在SMFA模块中,以中等的成本实现了高效的近似自关注(EASA)分支用于非局部信息探索,并使用局部细节估计(LDE)分支用于捕获局部信息。

给定输入特征Fin,首先对归一化Fin进行1 × 1卷积扩展通道,然后将通道分成两部分作为EASA和LDE分支的输入:

式中||·||2为L2归一化,Conv1×1(·)表示1×1卷积层,S(·)表示通道分割操作,然后通过EASA和LDE分支并行处理特征X和Y,分别产生非局部特征Xl和局部特征Yd。最后将Xl和Yd与元素加法融合在一起,并将它们馈送到1 × 1卷积中,以形成SMFA模块的代表性输出,这个过程可以表述为:

自注意的有效近似(EASA),通过降采样操作获得低频分量,并将其输入3×3深度卷积,生成非局部结构信息Xs:

其中D(·)表示自适应最大池化,缩放因子为8,DW Conv3×3(·)为3×3深度卷积层。为了编码调制非局部表示Xs的全局描述,引入X的方差作为空间信息的统计散度,并通过1 × 1卷积将其与非局部表示Xs合并:

式中σ2(X)为X的方差,N为像素总数,xi为每个像素的值,μ为所有像素值的平均值,Xm为调制特征。这种方差调制机制有助于更好地探索非局部信息。

最后利用调制特征对输入特征X进行聚合,提取代表性结构信息Xl:

其中φ(·)表示GELU激活函数,U(·)表示最近上采样操作,⊙表示元素积操作。

局部细节估计(LDE),局部细节对于令人满意的高频重建非常重要。由于EASA优先考虑非局部结构信息的探索,开发了一个简单的局部细节估计层来同时捕获局部特征,一个核大小为3 × 3的扩展深度卷积用于从输入特征Y编码局部信息Yh。然后使用两个带有隐藏GELU激活的1 × 1卷积来生成增强的局部特征Yd,其实现方法是:

其中Yh为编码后的局部信息。

3)部分卷积的前馈网络(PCFN),前馈网络(regular feedback -forward network, FFN)对每个像素位置的操作是相同的,缺乏空间维度上的信息交换。改进了FFN,并提出了一种高效的基于部分卷积的前馈网络(PCFN),以进一步细化SMFA衍生的代表性特征。

图2(c)显示PCFN使用1×1卷积与GELU激活函数在扩展的隐藏空间上进行跨通道交互。然后,它将隐藏的特征分成两个块{F1, F 2},并使用3×3卷积和GELU激活来处理F1以编码局部上下文信息。然后将处理后的F1和F 2连接并输入1×1卷积,以进一步混合特征并将隐藏通道减少到原始输入维。这个过程定义为:

4)特征调制块(FMB),将提出的SMFA和PCFN形成特征调制块(FMB)以产生深度代表性特征。为了稳定模型训练并鼓励更多的信息流,使用残差连接,FMB可以写成:

4、实验

1)与基于cnn的轻量级SR方法在公共基准数据集上的比较

2)基于vit的轻量级SR方法在公共基准数据集上的比较

3)×4 SR上的内存和运行时间比较

4)Urban100数据集上×4 SR的视觉比较

5)SMFA在×4 Urban100和Manga109数据集上图像超分辨率的有效性

6)×4 SMFANet在Urban100和Manga109数据集上的消融实验

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表