网站首页 > 技术文章 正文
前言:
图像超分辨率是指通过一定的算法从低分辨率(low-resolution,LR)图像中重建出其对应的高分辨率图像的过程。
现有的图像超分辨率算法主要可以分为两类:单图像超分辨率方法和基于参考图的图像超分辨率方法。
近年来,卷积神经网络(convolutionalneuralnetworks,CNNs)已被证明具有很强的特征提取能力,因此基于深度学习的思想也被广泛应用于上述两类图像超分辨率算法中。
网络结构
1.1网络结构概述
基于TTSR,本文提出了基于位置约束的遥感影像超分辨率网络,如图1所示,其中LRI表示低分辨率输入,SRI表示重建输出。
对于4×超分辨率,网络共包含3个分支,分别用于处理1×、2×以及4×3个尺度上的特征。
对于尺度1所在的分支,首先通过多个残差块来进行特征提取,以获得相应的骨干特征图,然后再使用基于位置编码的纹理转换模块,来实现参考图特征的匹配和变换,最后通过多个残差块和多尺度特征自适应融合模块进一步重建出图像的纹理信息。
尺度2和尺度3的重建过程与尺度1相似,不同之处在于尺度2、3的骨干特征图是通过对尺度1、2的特征图进行上采样来获取的。
网络最终的重建结果SRI是由3个尺度的特征进行自适应融合生成的。
1.2基于位置编码的纹理转换模块
如图2所示,该模块以ILR↑、IRef、IRef↓↑以及B作为输入,最终输出转换后的特征图F。其中ILR↑代表经过4倍上采样后的低分辨率输入,IRef代表高分辨率参考图像,IRef↓↑代表经过4倍下采样和4倍上采样后的参考图像,B代表图1中输入到纹理转换模块的骨干特征图。
该模块首先在特征域对ILR↑和IRef↓↑进行块匹配,然后利用块匹配的结果来引导IRef的特征图与骨干特征图进行融合变换。
与TTSR相比,本文提出的纹理转换模块主要有两大不同之处。一是本文在纹理转换的过程中引入了位置编码的策略,该策略正是以往方法所欠缺的。
通过位置编码的方式,可以计算出与低分辨率输入中邻近元素相匹配的参考特征块之间的聚合度,并以此为基准生成位置编码图P,实现对参考特征图的位置约束。
二是在参考特征图的融合变换部分,本文对TTSR中的软注意力方法进行了扩充,提出了双重注意力机制。
该机制从参考特征块的纹理相似度和位置聚合度两个方面出发,更为有效地实现了对高匹配度特征的增强以及对低匹配度特征的抑制。该模块的具体实现细节如下文所述。
1.2.1纹理提取器
通过预训练的VGG网络所提取到的语义特征并不能完全适用于图像超分辨率任务。
因此,为了获得更准确和有效的纹理特征,本文使用了一种可学习的纹理提取器,共包含5个卷积层和两个池化层。
在训练过程中,该提取器能够逐步生成更适用于超分辨率任务的纹理特征。其具体表示为
(1)
(2)
(3)
式中:Gte为纹理提取器;Q、K、V分别表示为ILR↑、IRef、IRef↓↑的纹理特征。
1.2.2全局搜索模块
全局搜索模块通过计算Q与K之间的相似度来实现低分辨率图像与参考图像之间的块匹配。首先,以每个像素点为中心,将Q和K分解成大小为3×3的特征块,将这些特征块分别表示为qi,I∈[1,HW]和kj,j∈[1,HW]。H和W分别为ILR的高和宽。
然后计算出qi和ki之间的相似度,并以此为标准从K的全局范围内筛选出与每个特征块qi最相似的特征块ki。
qi和ki之间的相似度是通过归一化内积的方式来进行计算的
(4)
式中si,js为Q中第i个特征块与K中第j个特征块之间的相似度
获得特征块之间的相似度后,基于全局搜索的策略,可以从所有ki中筛选出与每个qi最相似的特征块。
具体表示为
(5)
式中ji为K中与qi最相似的特征块所在的位置,同时也表示硬注意力图J中的第i个元素。
相应地,这些最相似的特征块与qi之间的相似度可以表示为
(6)
式中si为软注意力图S中的第i个元素,所有的si共同组成S。
硬注意力图J将作为位置编码和硬注意力模块的输入,软注意力图S将作为双重注意力模块的输入。
1.2.3位置编码
通常来说,两张图像中的相似纹理总是会以块的形式出现。因此,对于Q中的邻近元素来说,分别以它们为中心的qi在全局搜索模块中所匹配到的kj也同样应该在空间信息上具有较高的聚合度。
针对这一特性,本文设计了一种以相似块聚合度为标准的位置编码模块。
该模块以硬注意力图J作为输入,计算出与每个元素相对应的位置约束。
首先,以J中的各元素为中心,划分出大小为3×3的局部窗口,然后再计算窗口内所有元素与中心元素之间的位置差总和。
具体计算公式为
(7)
式中:x,y∈?[1,1];Gpos(a)表示用a除以W后对结果中的商和余数进行求和,结果中的商和余数分别对应于窗口中各元素与中心元素在垂直和水平方向上的位置差异;pi表示窗口内所有元素的位置差总和。
最后,还需要获取到所有pi中的最大值,并进一步计算出位置编码图P中每个元素的值,具体表示为
(8)
式中:z=0.5;pi为P中的第i个元素,所有的ipi共同组成位置编码图P。
1.2.4硬注意力
硬注意力模块能够利用J中的位置信息来对V中的特征块进行重组,进而生成匹配后的参考特征图R。
首先使用与前文相同的方法将V拆分成大小为33×的特征块vi,然后再通过以下方式来实现特征匹配,即
(9)
式中ri表示R中的第i个元素,所有的ri共同组成匹配后的参考特征图R。
1.2.5双重注意力
双重注意力模块旨在通过软注意力图S和位置编码图P来实现对参考特征图R的自适应转换,在转换过程中能够对高匹配度的特征进行增强,对低匹配度的特征进行抑制。
具体转换过程如下。
(10)
式中:Gconv代表卷积操作;‖代表特征图在通道维度上的级联;⊙代表Hadamard乘积;F代表纹理转换模块的输出。
为了降低计算复杂度,该网络仅在尺度1上进行了全局搜索和位置编码,其余两个尺度的硬注意力图J、软注意力图S以及位置编码图P均由尺度1的结果映射得到。
1.3多尺度特征自适应融合模块
如图1所示,网络通过分布在3个尺度上的参考特征图来对超分辨率过程进行引导,最终的重建结果也是由3个尺度上的特征进行融合生成的。
然而,如果直接以相同的权重将这些跨尺度的特征进行融合,将无法获得出色的重建性能,因为并不是所有的特征都能为重建过程提供相同的引导。
针对这一问题,基于RCAN,本文提出了多尺度特征自适应融合模块,有效增强了网络中各分支的特征表达能力。
由于不同尺度的特征图拥有不同的尺寸大小,因此在进行融合前,还需要对不同尺寸的特征图进行上采样和下采样操作,其中上采样操作通过双三次插值实现,下采样操作通过步长为2的卷积来实现。
具体的融合过程为:首先将重采样后的特征图进行通道维度的级联,然后通过全局平均池化层和两个卷积核大小为1×1的卷积层来获取其通道维度上的权重,并将该权重与级联后的特征图进行Hadamard乘积,生成优化后的特征图。
最后,通过一个卷积层将优化后的特征图映射为原始的通道数,得到最终的融合结果。
1.4损失函数
对于G对训练数据{IiHR,IiLR}i=1G,本文所使用的L1损失函数可表示为
(11)
式中:θ为网络的参数;N为IiHR中像素的总数量;G为批量大小。
数据集与实验设置
2.1数据集
本文使用遥感领域中的公开数据集RRSSRD[4]来进行网络的训练和测试。其中训练数据共包含了4047组高分辨率图像和参考图像对,覆盖了机场、沙滩、桥梁、居民区、运动场等多个遥感场景,它们均分布在厦门和济南地区。
其中高分辨率图像是通过WorldView-2和GaoFen-2卫星获取的,覆盖2015和2018两个年份。
参考图像则是从GoogleEarth2019年的影像中获取的。
高分辨率图像和参考图像的尺寸大小均为480×480。低分辨率输入图像是由高分辨率图像通过下采样的方式生成的。RRSSRD的测试集共有4组,每组均包含40对高分辨率图像和参考图像。
第1组测试数据的高分辨率影像由WorldView-2卫星拍摄的,覆盖区域为厦门。
第2组测试数据的覆盖区域与第1组数据相同,但其高分辨率影像是由MicrosoftVirtualEarth卫星拍摄的。
第3组测试数据的高分辨率影像由GaoFen-2卫星拍摄的,覆盖区域为济南。第4组测试数据的覆盖区域与第3组数据相同,但其高分辨率影像是由MicrosoftVirtualEarth卫星拍摄的。
此外,4组测试数据中的参考影像均是由GoogleEarth卫星拍摄的。
所有高分辨率图像和参考图像的尺寸大小均为480×480。
低分辨率输入图像则是由高分辨率图像通过下采样的方式生成的。
2.2实验设置
本文提出的网络中,除通道注意力模块和最后一个卷积层使用了大小为1×1的卷积核外,其余卷积层的卷积核大小均为3×3。网络的第1个卷积层和所有的残差块中的通道数均为64。
在训练过程中,本文通过90°、180°、270°的随机旋转以及垂直和水平方向的随机翻转来实现数据增广。
所提出的网络采用参数为β1=0.9、β2=0.999以及ε=10?8的Adam优化算法。纹理提取器的初始学习率为5×10?5,其余模块的初始学习率为1×10?4.每隔100个迭代次数(epoch),学习率下降一半。
网络在150个epoch收敛,训练数据的批量大小为5。该网络在NVIDIAGeForceRTX2080Ti服务器上使用Pytorch框架进行训练。
实验结果
本文将提出的方法与其他新近的图像超分辨率方法在4×和8×超分辨率任务上进行了对比。
对比方法包括两类:一是单图像超分辨率方法,如RCAN和HAN;二是参考图引导的图像超分辨率方法,如TTSR和RRSGAN。以上方法均在RRSSRD上进行了重新训练。
对于8×超分辨率,本文提出的方法通过将2×超分辨率模型和4×超分辨率模型进行级联来实现。
TTSR与RRSGAN也采取了相同的策略。对于单图像超分辨率方法RCAN和HAN,则遵循其原始设置,在网络末端添加一个额外的上采样层来实现8×超分辨率。
TTSR和RRSGAN在原始的训练过程中均引入了对抗损失,但这往往会产生较低的峰值信噪比(peaksignal-to-noiseratio,PSNR)和结构相似性(structuralsimilarity,SSIM)数值。
为保证实验的公平性,在对这两种方法进行重新训练时,仅使用了其重建损失,获得了相应的TTSR-rec和RRSNet版本。
除了PSNR和SSIM,我们还引入了学习感知图像块相似度(learnedperceptualimagepatchsimilarity,LPIPS)指标,该指标通过一个预训练的网络来评估重建图像,与原始图像之间的感知相似度。
不同于PSNR和SSIM,越低的LPIPS数值对应越好的重建结果。
3.1定量结果对比
表1从PSNR、SSIM和LPIPS3个方面展示了我们提出的方法,与其他方法在4×和8×超分辨率任务上的重建性能。
可以看出本文方法(无参考图)相较于其他的单图像超分辨率方法,在性能上并没有过多的损失,这说明在缺少参考图像时。
我们提出的多尺度特征自适应融合模块仍然能够帮助骨干网络获得更好的8×超分辨率结果,我们方法相较于次优的方法在4个数据集上分别获得了PSNR/SSIM/LPIPS为0.08dB/0.003/0.002、0.06dB/0.002/0.003、0.09dB/0.003/0.003、0.0.07dB/0.002/0.001的提升。
以上定量对比结果证明了,我们提出的基于位置编码的纹理转换模块,和多尺度特征自适应融合模块的有效性,使网络在多个尺度的超分辨率任务上均获得出色的重建性能。
表1在4个测试集上的PSNR/SSIM/LPIPS结果
3.2定性结果对比
图3和图4分别展示了本文的方法与其他对比方法在RRSSRD-2和RRSSRD-4测试集上的4×超分辨率结果。
图3(a)为原始的高分辨率图像,图3(j)为原始高分辨率图像在图3(a)中红色框区域的放大结果,图3(f)为参考图像,图3(b)~(e)及图3(g)~(i)为各超分辨率方法的重建图像在(a)中红色框区域的放大结果。
从图3和图4可知,由于低分辨率输入能够提供的纹理信息有限,所以单图像超分辨率方法的重建结果均显得较为平滑,且无法恢复出清晰的纹理轮廓。
TTSR虽然能够获取一定的参考图像信息,但在全局维度上的块匹配缺少更多的约束条件,导致匹配准确度下降,从而影响最终的重建性能。
RRSNet中提出的基于梯度的匹配方法更适用于处理大尺度的地物目标,所以在对一些较为细节的纹理进行恢复时,能获得的性能提升较为有限。
我们通过对位置约束的引入,有效提高了纹理转换模块的匹配精度,进而再利用多尺度特征自适应融合模块帮助网络重建出了最清晰和锐利的细节纹理,如图3(i)和图4(i)所示。
图5和图6分别展示了本文方法与其他对比方法在RRSSRD-1和RRSSRD-3测试集上的8×超分辨率结果。
对于8×超分辨率,ILR↑和IRef↓↑将变得尤为模糊,相似块的匹配也会变得特别困难。但本文提出的方法仍然能够在所有对比方法中生成最清晰的重建结果。
由此可以证明,即使匹配条件并不理想,位置编码的策略仍然可以帮助网络保持较为稳定的匹配精度,并通过跨尺度的自适应融合机制对超分辨率过程进行有效引导。
3.3鲁棒性分析
在实际应用中,低分辨率输入图像和参考图像通常是由不同卫星在不同时间段拍摄的,所以可能会出现卫星坐标不匹配、参考图像缺失、参考图像被云覆盖等情况。
因此,网络在使用不同相似度的参考图像时,能够具保持一定的鲁棒性也是尤为重要的。
即使使用了不相干或被云覆盖的参考图像,本文的方法仍然可以不受其干扰,并对不相似的纹理进行抑制,获得与HAN相近的重建性能。
结论
本文提出了一种基于位置约束的参考图引导的遥感影像超分辨率网络,并同时引入了对跨尺度特征进行自适应融合的策略。
在纹理转换模块,通过位置编码的方式来对匹配到的参考特征块进行约束,有效提高了匹配的准确度。
然后,基于通道注意力机制,对3个尺度上的参考特征图和低分辨率特征进行自适应的融合,提高了网络的特征表达能力和重建性能。
实验结果表明,本文所提出的方法在定量和定性两个方面均表现出了优于现有超分辨率方法的重建性能。
猜你喜欢
- 2024-12-08 英伟达发布 RTX 视频超分辨率技术,可更清晰的观看视频
- 2024-12-08 PCSR:用像素级分类加速图像超分辨率网络(ECCV2024)
- 2024-12-08 核显也能视频超分辨率,英特尔VSR类似技术曝光
- 2024-12-08 RepRFN:轻量图像超分辨率的重参数化残差特征网络(CVPR2023W)
- 2024-12-08 使用opencv实现深度学习的图片与视频的超分辨率
- 2024-12-08 SAFMN:高效图像超分辨率的空间自适应特征调制(ICC2023)
- 2024-12-08 英伟达介绍RTX VSR视频超分辨率技术:AI图像处理的突破
- 2024-12-08 超高清到底是几K?工信部告诉你答案......
- 2024-12-08 SMFANet:高效图像超分辨率特征聚合网络(ECCV2024)
- 2024-12-08 PlainUSR:追逐更快的ConvNet以获得高效的超分辨率(ACCV2024)
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)