网站首页 > 技术文章 正文
| 前人工作
论文Unsupervised attention-guided image-to-image translation和论文Attention-GAN for Object Translation in Wild Images都对注意力机制与GAN结合进行了研究,但是都将attention用于分离前景(foreground)和后景(background),主要做法为:
将生成器网络拆成两部分,第一部分为预测网络(用于预测感兴趣的区域),第二部分为转换器网络(用于两个域之间图像的转换)。
论文Attention-GAN for Object Translation in Wild Images主要思想为:
使用输入image的分割注释作为额外的监督信息来训练注意力网络,然后将注意力图应用于转换器网络的输出,从而将输入图像的背景用作输出背景,从而提高生成图像质量。
| SPA-GAN
论文SPA-GAN发表于2020年TOM(IEEE Transactions on Multimedia)
名称:SPA-GAN: Spatial Attention GAN for Image-to-Image Translation (SPA-GAN)
期刊:IEEE Transactions on Multimedia 2020
作者:Hajar Emami, Majid Moradi Aliabadi, Ming Dong, and Ratna Babu Chinnam
单位:Computer Science Department, Wayne State University, Detroit, Michigan United States
主要内容
SPA-GAN在CycleGAN网络结构的基础上,从判别器输出注意力图并输入生成器中用于协助生成器关注图像中更多有区分度的区域,并修改了循环一致性损失并增加特征图损失(与解码器第一层输出运算),SPA-GAN作为最新的研究成果具有最低的KID和最高的分类准确率;不足之处在于理论基础欠缺,特别是在消融实验部分关于使用编码器和解码器第几层的输出用于计算特征图损失的解释欠缺,只是从实验结果出发来分析。
主要贡献
(1)将attention机制用于将判别器中,并将其结果反馈到生成器(反馈的是一个空间注意力图spatial attention map,空间注意力图的内容是判别器用于判别输入图像真假的局域),从而让生成器给有明显区分的区域给予高的权重,作者还说这样做还能更大程度保留域特有的一些特征;在生成网络中,驱使在解码器第一层获得的特征图为真实图像与生成图像中识别的感兴趣区域相匹配;将attention作为一种从判别器迁移知识到生成器的机制,从而使判别器更好地帮助生成器更明确具有区分度的区域。
(2)更改循环一致性损失和新加入了生成器特征图损失(目的是保留域的特定特征)。
(3)与之前的添加注意力机制的GAN不同(不同在于之前的方法要么需要额外的监督信息,要么需要单独的注意力网络,给GPU带来计算负担),而SPA-GAN是一种轻量级模型。
图1 CycleGAN和SPA-GAN的结构对比
图2 不同算法的风格迁移生成结果对比
图3 苹果<->橙子的风格迁移生成结果对比
评价标准
KID、分类准确率与人为视觉判断,并增加消融实验。KID被定义为真实图像与生成图像的inception representations之间的平方最大均值差(MMD),KID是一个无偏估计量,没有任何激活分布形式的假设(比FID更加可靠),KID越小代表真实图像与生成图像有更高的视觉相似度。
论文评价
本论文内容殷实,之前的方法如AttentionGAN、SAGAN等经历了attention机制结合GAN做应用的多个版本的结构变形,从最早的SAGAN(生成器和判别器都有attention机制)到后来的AttentionGAN(解耦生成器为两个结构——预测网络和转换器网络)、Attention-GAN for Object Trans?guration in Wild Images(增加了分割注释作为额外的监督信息)、AGGAN(增加单独的注意力网络)。
早期的图像翻译方法孪生三胞胎CycleGAN(提出循环一致性损失,使用残差网络做图像转换)、DualGAN(使用WGAN的损失函数,稳定性更高)、DiscoGAN(使用最简单的CNN编码器解码器,使用全连接网络作为转换器)、UNIT(共享隐层空间假设、循环损失、VAE)、MUNIT(为内容和风格建立两个隐层假设,并用于多个域,内容code不变,风格多变)、DRIT(将隐层空间解耦为域共享内容空间——捕获共同信息、域特定属性空间),SPA-GAN在CycleGAN网络结构的基础上,从判别器输出注意力图并输入生成器中用于协助生成器关注图像中更多有区分度的区域。
并修改了循环一致性损失并增加特征图损失(与解码器第一层输出运算),SPA-GAN作为最新的研究成果具有最低的KID和最高的分类准确率;不足之处在于理论基础欠缺,特别是在消融实验部分关于使用编码器和解码器第几层的输出用于计算特征图损失的解释欠缺,只是从实验结果出发来分析。
参考文献
[1] Emami H , Aliabadi M M , Dong M , et al. SPA-GAN: Spatial Attention GAN for Image-to-Image Translation[J]. IEEE Transactions on Multimedia, 2020, PP(99):1-1.
- 上一篇: 你算个什么鸟?AI十级“找茬”选手诞生
- 下一篇: 利用注意图进行场景分类的深度判别表示学习
猜你喜欢
- 2024-10-15 大道至简,仅需4行代码提升多标签分类性能
- 2024-10-15 精华文稿|迈向统一的点云三维物体检测框架
- 2024-10-15 STANet简单介绍 介绍stb-1
- 2024-10-15 AAAI2022丨创新奇智提出双注意力机制少样本学习 助力工业场景细粒度识别
- 2024-10-15 人工智能4—AI编辑人脸终于告别P一处而毁全图,注意力机制yyds
- 2024-10-15 首个快速知识蒸馏的视觉框架:ResNet50 80.1%精度,训练加速30%
- 2024-10-15 计算机视觉技术self-attention最新进展
- 2024-10-15 首个基于时序平移的视频迁移攻击算法,复旦大学研究入选AAAI 2022
- 2024-10-15 当Non-local遇见SENet,微软亚研提出更高效的全局上下文网络
- 2024-10-15 南洋理工发布全球首个DeepFake篡改序列检测还原数据集|ECCV 2022
你 发表评论:
欢迎- 最近发表
-
- 在 Spring Boot 项目中使用 activiti
- 开箱即用-activiti流程引擎(active 流程引擎)
- 在springBoot项目中整合使用activiti
- activiti中的网关是干什么的?(activiti包含网关)
- SpringBoot集成工作流Activiti(完整源码和配套文档)
- Activiti工作流介绍及使用(activiti工作流会签)
- SpringBoot集成工作流Activiti(实际项目演示)
- activiti工作流引擎(activiti工作流引擎怎么用)
- 工作流Activiti初体验及在数据库中生成的表
- Activiti工作流浅析(activiti6.0工作流引擎深度解析)
- 标签列表
-
- oraclesql优化 (66)
- 类的加载机制 (75)
- feignclient (62)
- 一致性hash算法 (71)
- dockfile (66)
- 锁机制 (57)
- javaresponse (60)
- 查看hive版本 (59)
- phpworkerman (57)
- spark算子 (58)
- vue双向绑定的原理 (68)
- springbootget请求 (58)
- docker网络三种模式 (67)
- spring控制反转 (71)
- data:image/jpeg (69)
- base64 (69)
- java分页 (64)
- kibanadocker (60)
- qabstracttablemodel (62)
- java生成pdf文件 (69)
- deletelater (62)
- com.aspose.words (58)
- android.mk (62)
- qopengl (73)
- epoch_millis (61)
本文暂时没有评论,来添加一个吧(●'◡'●)