网站首页 > 技术文章正文

QuickSRNet:移动平台更快推理的图像超分辨率架构(CVPR2023W)

btikc 2024-12-08 12:25:27 技术文章 56 ℃ 0 评论

论文题目

QuickSRNet: Plain Single-Image Super-Resolution Architecture

for Faster Inference on Mobile Platforms

1、简介

这项工作提出了QuickSRNet，一种高效的超分辨率架构，用于移动平台上的实时应用。超分辨率可以使图像清晰化、锐化并升级到更高的分辨率。游戏和视频播放等应用以及电视、智能手机和VR头显的显示能力不断提高，推动了对高效升级解决方案的需求。虽然现有的基于深度学习的超分辨率方法在视觉质量方面取得了令人印象深刻的结果，但在具有计算、散热和功率限制的移动设备上实现基于dl的实时超分辨率是具有挑战性的。为了解决这些挑战，提出了QuickSRNet，这是一种简单而有效的架构，在单图像超分辨率方面，它比现有的神经结构提供了更好的准确性和延迟权衡。提出了一些训练技巧来加速现有的基于残差的超分辨率架构，同时保持对量化的鲁棒性。提出的架构在现代智能手机上通过2.2 ms的2倍放大产生1080p输出，使其成为高fps实时应用的理想选择。

这项工作的目标不是试图在标准超分辨率基准上实现最先进的PSNR或SSIM分数，而是开发适用于移动设备上的高fps实时应用的高效架构。为此提出了QuickSRNet，这是一个简单的单图像超分辨率神经网络，比现有的高效SR架构获得更好的精度与延迟权衡。

主要贡献：

?简化了网络架构，减少了残差连接移除的影响，并最终证明了更简单的设计在实现高水平精度和设备上性能方面的有效性。

?在设备上延迟方面比较了各种架构，在使用Snapdragon?8 Gen 1移动平台的设备上测量，而不是FLOPS计数，这不是设备上性能的可靠指标。

?测量了8位量化后的精度，这是在移动平台上提高效率的必要步骤，并描述了提高量化鲁棒性的架构技巧。

?将提出的架构应用于现实世界的用例（视频游戏），并将其视觉质量与著名的工业非基于机器学习的方法（AMD的FidelityFX Super Resolution （FSR1.0）算法）进行比较。

?描述了一种执行1.5倍超分的方法，这种设置偶尔用于游戏和XR用例，但SR架构通常不支持。

2、背景

1）单图像超分辨率（SR）是指从低分辨率（LR）图像ILR中恢复高分辨率（HR）图像IHR的一系列技术。近年来，基于深度学习（DL）的方法在该领域变得越来越流行，与基于插值的技术和手工设计的启发式相比，产生了令人印象深刻的结果（见图2）。然而，大多数现有的基于DL的超分辨率解决方案都是计算密集型的，不适合需要交互帧率的实时应用，如移动游戏。虽然神经方法已经成功应用于高端GPU桌面游戏中，但由于其高延迟和计算成本，神经方法在移动游戏中仍然不切实际。例如，EDSR等基于dl的架构需要75毫秒才能在最先进的移动AI加速器上将540p图像提升到1080p。这推动了对高效的基于dl的超分辨率解决方案的需求，这些解决方案可用于视频游戏等实时应用，在这些应用中，响应性和更高的帧速率是必不可少的。

2）ABPN采用类似vgg的convnet（即仅由3 × 3个convr - relu块组成），具有“基于锚定的”输入到输出剩残差连接。这个“基于锚定的”连接在最后的深度到空间操作之前向输出中添加了一个通道最近邻的升级版本的输入。本文证实在分析设备上，这种通道实现比直接将空间上采样的输入添加到输出的更常见的方法运行得更快。因此本文的所有实验中都遵循相同的策略来实现输入到输出的残差连接。

3、方法

1）关于去除输入输出残差连接的影响，vgg风格的架构，如ABPN或RepSR已经得到了很好的优化，因此尚不清楚它们在移动AI加速器上的速度有多快，减少层和通道的数量，或者用1 × 1内核替换3 × 3内核，可以以牺牲准确性为代价提高速度，实验研究如何在不影响精度的情况下有效地去除输入到输出的残差连接。长残差连接会对超分辨率架构的效率产生很大影响，特别是在智能手机或VR头显等内存有限的平台上。为了证实这一点，训练并分析了一个无残差的ABPN变体，发现去除输入到输出的残差连接可将延迟降低35%。然而，这种修改导致精度略微降低，更重要的是，量化的鲁棒性降低，如表1所示。

为了解决这个问题，提出了QuickSRNet，这是一种无残差的架构，对量化具有鲁棒性。

2）QuickSRNet，QuickSRNet遵循类似vgg的结构，没有输入到输出的残差连接（见图3）。该架构用m表示中间卷积块的数量，f表示这些中间层中的特征通道的数量。为了增加对量化的鲁棒性，使用残差学习驱动初始化方案以及裁剪的ReLU激活：

identity初始化利用直观的初始化技术，其中每个中间卷积层模拟一个局部跳过连接：

其中?是离散卷积算子，W是核权重。

式(1)仅在x和y具有相同维度时有效，因此不能直接适用于架构的第一层和最后一层，因为这两层分别将通道数从3更改为f和f更改为3 × S× S，其中S为缩放因子。对于这些层将初始化方案修改如下：

?部分identity初始化：将第一个卷积模块的3通道输入加到前3个输出通道中，其余f?3个输出通道保持不变。

?重复交错identity初始化：最后卷积模块的前3个输入通道重复交错S× S次，并加到输出中。

与式(1)类似，式(1)中描述的跳过连接。(2)和(3)通过在适当位置对核权值加1，合并到相应的卷积模块中。直观地说，这种初始化技术使输入图像在整个网络中传播良好。用于初始化最后一层的重复交错方案模拟了在现有c残差体系结构的输入到输出连接中通常执行的最近邻上采样。

ReLU1 除了identity初始化之外，发现在0和1之间裁剪ReLU激活可以提高对量化的鲁棒性。在整个网络中使用relu1，而不仅仅是在最后一层，为了使这种方法与id-initialized架构很好地工作，将输入像素在0和1之间缩放是很重要的（以0为中心将导致第一个id-initialized转换所传播的大约一半像素被归零）。实验结果表明，将identity初始化和ReLU1激活相结合可以显著提高对量化的鲁棒性。

4、实验

1）各种QuickSRNet配置的psnr （dB）和latency （ms）

2）BSD100上现有SISR解决方案的psnr （dB）和延迟（ms）

3）消融研究比较FP16在架构设计中去除残差初始化和/或ReLU1激活后的量化后PSNR下降

4）各种量化技术对精度的影响

5）quicksrnet -在采用Snapdragon 8 Gen 1的设备上以不同目标分辨率运行的延迟（ms）

6）模型和现有基线生成的来自Urban100的4倍超分辨率图像的可视化

上一篇： Dropout用于图像超分辨率(CVPR2022)
下一篇：如何开启N卡超分辨率“神技”?

网站首页 > 技术文章正文

QuickSRNet:移动平台更快推理的图像超分辨率架构(CVPR2023W)

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

QuickSRNet:移动平台更快推理的图像超分辨率架构(CVPR2023W)

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: