文章首发微信公众号:小小cv笔记
一 Inception Score(IS)
论文题目:A Note on the Inception Score
1,简介
Inception Score(IS)使用Inception v3,Inception v3 Network 是为ImageNet上的分类任务设计的深度卷积架构,ImageNet是一个由来自1000个类的120万张RGB图像组成的数据集。给定图像x,网络的任务是以概率向量p(y|x)∈[0,1]1000的形式输出一个类标签y,表示网络分配给每个类标签的概率。
2,方法
IS使用在ImageNet上预训练的Inception v3网络,并在应用于生成的图像时计算网络输出的统计数据
其中x ~ pg表示x是从pg中采样的图像,DKL(pkq)是分布p和q之间的kl散度,p(y|x)是条件类分布,p(y) = ∫x p(y|x)pg(x)是边缘类分布。表达式中的exp是为了使值更容易比较,所以它将被忽略,我们将使用ln(is (G))而不会失去一般性。
提出IS的作者旨在将生成模型的两个理想品质编入度量:
1)生成的图像应包含清晰的对象(即:图像是清晰而不是模糊的),或者p(y|x)应该是低熵的。换句话说,Inception应该高度确信图像中只有一个物体。对应式中p(y|x)像,生成的一张图像经过Inception网络分类后置信度越高说明数据越好,越清晰,模型更容易识别
2) 生成算法应该输出来自ImageNet中所有不同类别的高多样性图像,或者p(y)应该是高熵的。对应式中的p(y),对应生成的很多张图像,我们期望生成图像在每个类别的概率越平均越好,多样性越好
如果生成模型满足这两个特征,那么我们期望分布p(y)和p(y|x)之间有很大的kl散度,从而产生很大的IS。
3,问题
3.1自身问题
a 对模型参数很敏感
使用两个版本的inception 去计算IS,分类精度差不多的情况下,IS分数却相差很多
这表明Inception Score对网络权重的微小变化很敏感,这些变化不会影响网络的最终分类精度。我们希望用于评估生成模型的良好度量不会对与生成的图像质量无关的变化如此敏感。此外,Inception Score中的这种差异可以很容易地解释“最先进”的与其他作品的区别,这让人对模型优越性的说法产生了怀疑。
b 分数计算和求幂
1)每组5000估计p(y),样本量太少,因为1000类,每个类只有5张,这个经验分布概率不准
2)由于IS计算有指数操作,指数不是线性可加的,这会造成N取不同的值就会有不同的均值和方差
针对以上两个问题进行改进
1)取消指数运算
2)取消分组,或者说有多少样本就分多少组
3.2 使用问题
1)应用于在ImageNet以外的数据集上训练的生成模型会产生误导性的结果
2)第二个假设,即p(y|x)类的分布将是低熵的,也不符合我们所希望的程度。条件分布p(y|x)以来自CIFAR训练集的图像为条件的平均熵为4.664位,而均匀随机图像(像素值均匀在0到255之间)的平均熵为6.512位,相对于可能的10位熵有适度的增加。相比之下,在ImageNet验证集中,p(y|x)的平均熵为1.97比特。因此,CIFAR上的条件类分布的熵更接近于随机图像的熵,而不是ImageNet中的实际图像的熵,这使人们对基于Inception Score的第二个假设产生了怀疑。
3)使用IS作为优化目标训练生成模型
使用Inception Score作为度量来优化早期停止、超参数调优,甚至模型架构的算法,可以得到很高的Inception Score,但是生成的图像质量却很差
4)无法判断模型是否过拟合
在报告算法的初始分数时,包括一些替代分数来证明模型不是过度拟合训练数据,验证获得的高分不是简单地重放训练数据,这是非常重要的。
二 FID
论文:
GANs Trained by a Two Time-Scale Update RuleConverge to a Local Nash Equilibrium
在论文的附录里
1.简介
也使用了 Inception,但是只使用 Inception提取特征,没有直接使用分数,是一个2048维度的特征,总体来说是体现了生成图片和实际图片的距离,距离越小,越接近真实图片,因为真实图片多样性和图片质量都很好
2.方法
P(.)和pw(.)分别代表GAN生成数据的概率分布和来自"real-world"的概率分布,m和C分别为P(?)的均值和协方差,mw, Cw分别为pw(?)的均值和协方差,Tr是矩阵的迹。从Inception v3的最后一个层的activation feature map上获取以上数据。
三 CLIPScore
CLIPScore:A Reference-free Evaluation Metric for Image Captioning
1.简介
CLIPScore最开始用于图像描述任务,后续由于扩散模型使用CLIP进行文生图后,大量用于扩散模型文生图的评估
2.方法
分别使用clip的图像和文本encoder对输入prompt和生成图像进行特征提取得到512维度的特征,然后计算两个特征的余弦相似度,公式化表示如下
做了一些尺度缩放和裁剪,保证在0-1之内,整体比较简单,一目了然
3.特点
3.1优点
1)可以评估文生图图像和文本的一致性,这个是IS和FID没法做到的
2)CLIPScore的一些变体不仅可以评估文本和图片之间的一致性,还可以评估图片和图片之间的一致性,生成图片之间的特征越不相似说明生成器的多样性越好,生成图片和训练图片的相似性越高说明保真度越好,这一点在dreambooth中有应用
3.2缺点
1)更多评估的是图像和文本之间的一致性,对于生成图像质量没有直接体现
2)cilp本身模型的限制,对于clip模型本身学习的不好的一些文本,可能会出现偏差,clip本身训练数据来自于网络爬取,对于网络中出现的低频文本的评估会出现偏差
本文暂时没有评论,来添加一个吧(●'◡'●)