计算机系统应用教程网站

网站首页 > 技术文章 正文

利用注意图进行场景分类的深度判别表示学习

btikc 2024-10-15 08:57:45 技术文章 4 ℃ 0 评论

利用注意图进行场景分类的深度判别表示学习

题目:

Deep Discriminative Representation Learning with Attention Map for Scene Classification

作者:

Jun Li, Daoyu Lin, Yang Wang, Guangluan Xu, Chibiao Ding

来源:

Computer Vision and Pattern Recognition (cs.CV)

(Submitted on 21 Feb 2019)

链接:

https://arxiv.org/abs/1902.07967

摘要

学习用于遥感图像场景分类的强有力的辨别特征是具有挑战性的计算机视觉问题。过去,大多数分类方法都是基于手工制作的功能。然而,最近的遥感场景分类方法基于卷积神经网络(CNN)。学习这些CNN模型时的实际操作只是使用原始RGB补丁作为输入,并对大量标记数据(ImageNet)执行训练。在本文中,我们展示了类激活图(CAM)编码的CNN模型,代号为DDRL-AM,使用原始RGB补丁训练,基于注意力图的类信息为标准RGB深度模型提供补充信息。据我们所知,我们是第一个研究注意信息编码的CNN。另外,为了增强可辨性,我们进一步采用了最近开发的称为“中心损失”的对象函数,该函数已被证明在人脸识别中非常有用。最后,我们的框架以端到端的方式为模型提供注意力指导。对两个基准数据集的大量实验表明,我们的方法匹配或超过了其他方法的性能。

要点

图1:三个主要的挑战:(a)类内的大变化 (b)类间小差异(c)场景图像中的小对象。这些示例来自具有挑战性的NWPURESISC45数据集

图2:我们的框架概述:1)利用Imagenet数据集预先训练的CNN网络和梯度凸轮架构生成判别注意图;2)采用不一致的两流架构联合优化,融合原始图像和注意图的高特征,并结合多个损失函数。为简单起见,不同颜色块分别表示不同的网络结构层。

图3:来自微调resnet-18的conv_5 feature map上的注意力映射

图4:空间特征转换器架构

图5:来自NWPU-RESISC45数据集的示例图像。(2)机场。(3)棒球内场。(4)篮球场。(5)海滩。(6)桥。(7)茂密的树丛。(8)教堂。(9)圆形农田。(10)云。(11)商业区域。(12)密集的住宅。(13)沙漠。(14)森林。(15)高速公路。(16)高尔夫球场。(17)地面田径场。(18)港口。(19)工业区。(20)的十字路口。(21)。(22)湖。(23)草地。(24)中住宅。(25)流动房屋公园。(26)。(27)天桥。(28)宫。(29)停车场(30)铁路。(31)火车站。(32)矩形

图6:显著性掩码结果。最后对卷积输出进行了梯度凸轮可视化计算。ground-truth标签显示在每个输入图像的顶部(第一行),而prediced标签显示在显著性图像的顶部(第二行和第三行)

英文原文

Learning powerful discriminative features for remote sensing image scene classification is a challenging computer vision problem. In the past, most classification approaches were based on handcrafted features. However, most recent approaches to remote sensing scene classification are based on Convolutional Neural Networks (CNNs). The de facto practice when learning these CNN models is only to use original RGB patches as input with training performed on large amounts of labeled data (ImageNet). In this paper, we show class activation map (CAM) encoded CNN models, codenamed DDRL-AM, trained using original RGB patches and attention map based class information provide complementary information to the standard RGB deep models. To the best of our knowledge, we are the first to investigate attention information encoded CNNs. Additionally, to enhance the discriminability, we further employ a recently developed object function called "center loss," which has proved to be very useful in face recognition. Finally, our framework provides attention guidance to the model in an end-to-end fashion. Extensive experiments on two benchmark datasets show that our approach matches or exceeds the performance of other methods.

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表