介绍
随着 GAN的发展,如ProgressiveGAN【https://arxiv.org/pdf/1710.10196.pdf】和StyleGAN【https://arxiv.org/pdf/1812.04948.pdf】,可以生成高分辨率1024×1024的精美图像。然而,它们仅限于生成面部图像,并且仍然难以生成更复杂的图像,例如整个人的全身图像,如下图所示。
因此,本文试图从生成全身图像入手,而不是生成二次元美少女的脸部图像。正如前面提到的,因为它是一个关于人身腰部以上的图像生成,在这里称之为全身,准确的来说是生成半身图像。然而,由于腰部以下脚以上的图像的生成方法也是一样的,所以选择了这样的标题。
网络架构
本文基于 Progressive Structure-conditional GAN(PSGAN) 【https://arxiv.org/pdf/1809.01890.pdf】来实现。该方法用于生成二次元角色的高分辨率全身图像。作为网络结构,像Progressive GAN一样逐步执行图像生成。此外,模型由于仅使用生成全身图像,会生成不平衡图像,因此我们还将生成关键点KeyPoint图像,同时关注结构,并通过将生成的KeyPoint图像作为条件,来生成全身图像。通过使用该KeyPoint,可以防止产生不平衡图像。网络结构的细节如下所示。
本文中,将参考PSGAN创建角色图像的全身图像。以下是PSGAN的两个主要变化。
- 它不是像ProgressiveGAN那样逐渐生成,而是以Residual Block为主题生成。本文认为通过执行逐步生成可以更美妙地生成,但到目前为止,ProgressGAN和StyleGAN从未成功实现和学习,所以我们使用了一个成功的例子。
- 使用下面显示的轮廓图像代替KeyPoint图像。原因是只要知道一个像轮廓一样的尺寸就足以避免不平衡问题。知道KeyPoint图像的每个部分的位置信息,虽然它正在减少,但本文认为它可以生成。在某些情况下,创建轮廓图像比生成KeyPoint图像更容易。
数据集
本文从Getchu中使用图像,并将学习数据设为96?128。从这些图像中制作了一个轮廓图像。作为创建轮廓图像的方法,在全卷积网络Fully-Convolutional Network(FCN)【https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf】上学习了约200个图像,并用该学习模型推断。通过这样做,我们制作了34484个全身图像和轮廓对。
实验
从单个256维噪声生成96 x 128大小的轮廓和全身图像,并且将鉴别器Discriminator应用于每个图像上。因此,我们将轮廓和全身图像的对抗性损失Adversarial loss用作损失函数,然后使用梯度惩罚Gradient penalty【https://arxiv.org/pdf/1704.00028.pdf】来稳定学习。鉴别器Discriminator也使用谱归一化Spectral Normalization【https://arxiv.org/pdf/1802.05957.pdf】。其他实验条件的细节如下:
- Batch Size 选取64
- 水平翻转Horizontal flip用于数据增强Data Augmentation
- 对抗性损失Adversarial loss和梯度惩罚Gradient penalty分别选取1和0.5
- 对于一次生成器Generator权重更新,鉴别器Discriminator权重更新两次。
- Hinge loss用于计算对抗性损失Adversarial loss
- 优化方法选取Adam(α=0.0002, β1=0.5)
结果
结果如下所示。它显示了相对较好的效果。
您可以看到轮廓是正确的人形,角色是根据轮廓生成的。
在前一图像中,给予每个character不同的character作为输入,但是用于轮廓图像生成的输入噪声是固定的,并且用于全身图像生成的输入噪声是可变的。
尽管已经发生了模式崩溃mode collapse,但是可以确认生成了诸如颜色之类的信息,在已经改变的图像上。
此外,即使用这种方法生成轮廓,许多失败的例子一出现就会出现全身图像。由于轮廓,很少有不平衡,但有很多图像,不知道角色的手和衣服是怎样的。作为额外的辅助信息,使用类似于PSGAN的KeyPoint,以及像Multi-Human Parsing【https://github.com/ZhaoJ9014/Multi-Human-Parsing】这样的每个部分的分割掩码Segmentation mask,质量可能会提高。在任何情况下,对于诸如全身图像的复杂图像生成,基于诸如结构的附加信息生成图像似乎是有效的。如果Disentanglement系统的方法发展,是否有可能通过执行结构分解生成这样一个复杂的图像...
其他方法
当尝试这种全身图像生成时,可参考一篇GauGAN论文【https://arxiv.org/pdf/1903.07291.pdf】。如下图所示,这是一种通过通过Spatally-Adaptive(De)Normalization(SPADE)给出各种尺度的标签图像,从噪声生成类似照片的图像的技术。这是pix2pixHD【https://arxiv.org/pdf/1711.11585.pdf】的发展。
这次尝试将这种方法应用于全身图像生成,并通过SPADE给出生成的轮廓信息,并且认为可以从噪声生成全身图像。然而,它已成为如下所示的前卫图像。首先,有些图像与轮廓不兼容。由于它仍然是一个初步的研究,这里没有深入调整,但本文放弃了这种方法,因为上述实施工作更好。
Summary
这次,基于轮廓信息生成全身图像。不能说这样展示的身体形状会更好......为了进一步提高质量,不仅需要轮廓,还需要每个身体的部位信息。然后,需要用于每个身体部位的分割掩模的推理网络,并且必须用character数据训练这样的推理网络,并且必须为此目的创建数据集。最近,为了学习推断目的的深度学习模型,需要另一种深度学习模型已经变得很普遍。
本文暂时没有评论,来添加一个吧(●'◡'●)