论文提出了一个模态恢复模块和一个模态补偿模块,分别从被去除的信息中提取模态无关和模态相关的特征,提升VI-ReID精度,思想可以借鉴到其他多模态的任务中
论文题目:
MRCN: A Novel Modality Restitution and Compensation Network for Visible-Infrared Person Re-identification
摘要
可见-红外人物再识别(VI-ReID)是一项具有挑战性的任务,其目的是在不同光谱上搜索身份,由于可见和红外图像之间存在较大的交叉模态差异。减少差异的关键是过滤掉与身份无关的干扰,并有效地学习模态不变的人表征。在本文中,我们提出了一种新的模态恢复与补偿网络(MRCN)来缩小两种模态之间的差距。具体来说,我们首先通过使用两个实例规范化(IN)层来减少模态差异。其次,为了减少IN层对去除判别信息的影响,减少模态差异,我们提出了一个模态恢复模块(MRM)和一个模态补偿模块(MCM),分别从被去除的信息中提取模态无关和模态相关的特征。然后,使用模态无关特征恢复归一化的可见光和红外特征,而使用模态相关特征补偿其他模态特征。此外,为了更好地分离模态相关特征和模态无关特征,我们提出了一种新的中心四重因果损失(CQC)来鼓励网络有效地学习模态相关特征和模态无关特征。大量的实验验证了我们的方法在具有挑战性的SYSU-MM01和RegDB数据集上的优越性。更值得注意的是,我们的方法在RegDB数据集上的Rank-1和mAP的准确率分别达到95.1%和89.2%。
介绍
人员再识别(Person ReID)由于在智能监控系统中具有巨大的应用潜力而受到越来越多的关注。给定查询图像,人员ReID的目标是匹配非重叠摄像机监控系统中最相关的人员。现有的人脸识别方法主要集中于解决与人体姿势、背景和光照变化相关的挑战。这些方法的理想性能在很大程度上取决于良好的可见光条件,以清楚地捕捉人类的外观特征。然而,当光照条件不理想时,监控系统通常会自动从可见光(VIS)模式切换到近红外(NIR)模式,以应对低照度问题。因此,有必要考虑可见光-红外人ReID (VI-ReID)的关键问题。VI-ReID的目标是对不同光谱的VIS和NIR相机捕获的人进行匹配,与被广泛研究的单模态人脸识别相比,由于VIS和NIR图像之间存在额外的跨模态差异,VI-ReID更具挑战性。
为了减小可见光和近红外图像之间的模态差异,提出了两种常用的方法。一种是图像级方法,其目的是通过使用生成对抗网络(GANs)将近红外(或VIS)图像翻译成其VIS(或NIR)对应图像。尽管它们在减少模态差异方面取得了成功,但由于缺乏VIS-NIR图像对,生成跨模态图像通常伴随着噪声。另一种类型是特征级方法,通常训练端到端网络以接近具有不同模态的相同身份的样本。得益于卷积神经网络(cnn)强大的特征提取能力,这些方法都取得了良好的性能。然而,由于近红外和可见光图像之间存在较大的模态差异,使得这些方法难以将交叉模态图像直接投影到公共特征空间中。
在本文中,我们的目标是尽量减少VIS和NIR图像之间的模态差异,这可以被视为两种不同风格的图像。关键是找到一种方法来区分与情态相关和与情态无关的信息。受信噪比在泛化不同风格图像中的启发,我们提出了一种新的模态恢复和补偿网络(MRCN)来减少模态差异。提出的MRCN通过两个实例归一化(IN)层对VIS和NIR特征执行模态归一化,消除了VIS和NIR图像之间的模态差异。在两个IN层之后,提出了两个即插即用模块来进一步提取与模态无关和模态相关的信息。然后,将提取的模态无关信息恢复到归一化特征中,以保证模型的高性能,同时利用提取的模态相关信息对归一化特征进行补偿,以减小VIS和NIR图像之间的模态差异。因此,所提出的MRCN可以有效地减少模态差异,同时保证高性能。
此外,为了更好地分离模态信息,进一步减少VIS和NIR图像之间的模态差异,我们提出了一种新的中心四重因果损失(CQC)来激励网络有效地提取模态相关信息和模态不相关信息,分别用于将模态不相关信息恢复到归一化的模态特征中,并补偿模态相关信息对其对应的模态特征。通过将MRCN和CQC损失结合到端到端学习框架中,该方法在两个具有挑战性的VI-ReID数据集上取得了令人印象深刻的性能。
我们的贡献总结如下:
?我们提出了一种新的模态恢复和补偿网络,以解开模态相关和模态无关的特征,并减少VIS和NIR图像之间的模态差异。特别是,解纠缠特征可以有效地减少模态差异。
?我们提出了中心四重因果损失,使解纠缠特征在模态分布上一致,极大地促进了模态相关和模态无关特征的解纠缠,显著提高了VI-ReID任务的性能。
?广泛的消融实验研究表明,MRCN在两个具有挑战性的VI-ReID基准测试中优于几种最先进的方法。特别是在RegDB数据集上,我们的方法在Rank-1方面达到95.1%,在mAP方面达到89.2%。
相关工作
VI-ReID任务的方法主要有两类:图像级方法和特征级方法
图像级方法
图像级方法通过将一种模态转换为另一种模态来减少模态差异。例如,D2RL 和AlignGAN将近红外图像转换为VIS图像,并将VIS图像转换为近红外图像。JSIA-ReID生成跨模态配对图像,并执行全局集级和细粒度实例级对齐。
这些方法通常设计复杂的生成模型来对齐跨模态图像,尽管取得了成功,但由于缺乏VIS-NIR图像对,生成跨模态图像不可避免地伴随着噪声。最近,Xmodality及其变体(如SMPL和MMN )利用轻量级网络获得辅助模态来辅助跨模态搜索。然而,这种辅助模态与VIS-NIR模态之间仍然存在模态差距。
特征级方法
特征级方法旨在找到一个模态共享和模态特定的特征空间,其中模态差异最小。为此,CM-NAS利用了面向bn的搜索空间,可以在其中实现标准优化。MCLNet 提出最小化模态间差异,最大化跨模态相似性。受对抗性学习的启发,cmGAN 设计了一个前沿的判别器来学习来自不同模态的判别特征表示。MPANet引入了模态缓解模块和模式对齐模块,共同提取判别特征。然而,由于VIS和NIR图像之间存在较大的模态差异,因此很难将跨模态图像直接投影到公共空间中。
方法
模型架构
图2提供了提议的MRCN的概述,在MRCN中,首先使用两个实例归一化(In)层来消除VIS和NIR模态之间的模态差异。然后,利用所提出的模态恢复模块(MRM)和模态补偿模块(MCM)降低了IN层对去除判别信息的影响,减小了VIS和NIR图像之间的模态差距。此外,我们提出了一个新的中心四重因果损失(CQC)来鼓励网络学习模态相关和模态不相关的特征,它们分别用于将模态不相关的信息恢复到归一化的模态特征中,并补偿模态相关的信息为对应的模态特征。在推理过程中,特征不使用MCM提取的。将原始特征与MRM提取的特征连接起来进行测试。
模态恢复和补偿网络
由于可见光谱的反射率与近红外光谱的发射率存在天然差异,不同模态的人像之间存在较大的模态差异。在本文中,我们使用两个In层分别对VIS和NIR模态进行模态归一化。然而,IN层会导致一些判别信息的丢失,受信噪比研究的启发,我们建议进一步从被删除的信息中提取模态无关的特征,并将其恢复到网络中,以确保提取的特征具有较高的识别率。此外,我们还从被删除的信息中提取出与模态相关的特征,并将它们添加到对应的模态中,以补偿两个模态之间的差异。
为方便起见,我们首先定义VI-ReID任务,所提出的MRCN采用具有相同身份但不同模态的图像对作为输入。设Fv和Fn分别表示与VIS和NIR模式相对应的主干网第一阶段层输出的特征。首先,我们使用两个IN层对Fv和Fn进行模态归一化,对于VIS模式,我们有:
对于近红外模式,我们有:
其中μ(·)和σ(·)分别是特征Fv和Fn的平均值和标准差,它们是在每个通道和每个输入的空间维度上计算的,γv, γn, βv和βn是从网络中学习到的参数。
由于IN层可以从图像内容中过滤出一些模态信息,因此可以将原始特征Fv(或Fn)与模态归一化特征~Fv(或~Fn)之间的差Mv(或Mn)视为模态相关信息,其表达式为:
虽然Mv和Mn可以反映模态信息,但是IN层可能会导致一些判别信息被丢弃。此外,Mv和Mn中还存在一些与模态无关的信息。因此,我们通过提出的MRM和MCM进一步提取它,以获得与情态无关和与情态相关的信息。
模态恢复模块 模态恢复模块(MRM)用于将模态无关但身份相关的信息恢复到网络中,以确保我们的MRCN的高性能。由于VIS和NIR模态之间的模态差异主要在于通道空间,本文提出的MRM采用两个简单的通道注意模块Av1和An1,分别从Mv和Mn中提取与模态无关但与身份相关的信息。然后,我们得到蒸馏后的信息Mv+和Mn+,可以写成:
其中通道关注模块Av1和An1采用SE-Net , SE-Net由一个全局平均池化层和两个全连接层组成,然后是ReLU激活函数和sigmoid激活函数。为了减少参数的数量,将降维比例设置为16。然后,我们恢复了模态无关但识别相关的信息Mv+和Mn+,将上述蒸馏过程转化为归一化模态特征Fv+和Fn+,可写成:
最后,利用Fv+和Fn+作为MRM的输出特征对网络进行优化,以保证所提MRCN的高性能。
模态补偿模块 模态补偿模块(MCM)旨在补偿与模态相关但与身份无关的信息,以减少两模态之间的模态差异。与MRM类似,我们还使用了两个类似senet的通道关注模块Av2和An2来提取原始输入特征Fv(或Fn)和归一化模态特征Ffn(或Ffv)之间的差Mv(Mn)。然后,我们可以得到与模态相关但与恒等无关的信息Mv?和Mn?,可以表示为:
MCM和MRM的不同之处在于,我们用对应的模态来补偿与模态相关但与身份无关的信息。这里,设Fv?和Fn?分别表示MCM在VIS和NIR模式下提取的补偿特征。然后我们有:
这样,我们就可以从上面的提炼过程中获得与模态相关但与身份无关的信息。将Mv?(或Mn?)加到归一化模态特征Fn(或Fv)上,可以得到补偿特征Fn?(或Fv?),这可以看作是人在VIS(或NIR)模态中的相应特征。因此,MCM的输出特征Fv?和Fn?有利于网络的联合优化,通过这种方式,VIS模态和近红外模态之间的模态差异可以显著减少。
中心-四重因果损失
为了更好地分离模态相关和模态无关的信息,我们提出了一个新的中心四重因果损失(CQC)来约束输出特征,使我们的网络在保持高性能的同时减少模态差异。我们将MRCN输出的特征表示为f = {fv, fv+, fv?, fn?, fn+, fn};fv和fn是VIS和NIR模态的原始特征,fv+和fn+是MRM输出的特征,fv-和fn-是MCM输出的特征。
对于MRM,所提出的CQC损失的目的是使MRM输出的特征更具判别性。具体来说,我们首先计算每个身份的恢复特征(fv+/fn+)的特征中心。我们表示中心特征为(cv+/cn+)。然后,我们使特征中心(cv+/cn+)与另一模态的原始特征中心(cn/cv)的距离小于其与同一模态的原始特征中心(cv/cn)的距离,因此,对于MRM,建议的CQC损失可表示为:
其中D(a, b)是a和特征b之间的欧氏距离, C是minibatch中的类大小,α是一个边距参数,[z]+ = max(z, 0). civ, cin, civ+和cin+来自同一个恒等式。
类似地,对于MCM,建议的CQC损失应该启用利用MCM输出的特征来减少模态VIS和NIR图像之间的间隙。具体来说,我们首先计算补偿特征的特征中心(fv?/fn?)。我们将中心特征设为(cv-/ cn?)。然后,我们得到中心特征(cv?/cn?)离特征中心(cn/cv)的距离更小,而不是它到特征中心的距离(cv/cn)的原始模态相同的身份。因此,对于MCM,建议的CQC损失可写为:
Multi-Loss优化
除了提出的LCQC外,我们还结合了标签平滑交叉熵损失Llsce 和三重熵损失Ltri ,通过最小化这三种损失的总和来共同优化网络,其可表述为:
其中λ1和λ2是控制损失项相对重要性的系数。
实验
数据集
SYSU-MM01数据集包含491个身份,由4台VIS摄像机和2台近红外摄像机捕获。训练集包含19659张VIS图像和792个身份的12395张近红外图像,测试集包含3803张96个身份的近红外图像作为查询集。RegDB数据集由412个身份组成,每个身份有10个VIS图像和10个NIR图像,这些图像由一对重叠的相机捕获,我们评估了可见光到红外和红外到可见光两种模式下的比赛方法。
实现细节
将所有输入图像的大小调整为3 × 288 × 128,并进行随机水平翻转和随机擦除,在训练阶段采用技术进行数据增强。初始学习率设置为1×10?2,10次后线性增加为1×10?1。在预热过程之后,我们在第20个epoch将学习率衰减到1 × 10?2,在第60个epoch进一步衰减到1 × 10?3,直到总共80个epoch。在每个小批中,我们随机选择4个身份的4张VIS图像和4张NIR图像进行训练。采用SGD优化器进行优化,动量参数设为0.9,对于CQC损耗中的裕度参数,我们在实验中将其设置为0.2。对于Eq.(11)中的系数λ1,我们将其设为1。
与最先进方法的比较
我们首先将我们的方法与几种最先进的方法进行比较,以证明我们的方法的优越性。
RegDB:在表1中我们可以看到,在RegDB上的实验结果表明,在不同的测试模式下,MRCN在所有竞争的最先进的方法中都取得了最好的性能。具体来说,在可见光到红外模式下,MRCN (MRCN- p)在Rank1上的准确率为91.4%(95.1%),在mAP上的准确率为84.6%(89.2%)。MRCN-P在Rank-1准确度和mAP准确度上分别比第二好的MMN 高出3.5%和5.1%。对于红外到可见光模式,MRCN (MRCN- p)在Rank-1精度上也达到88.3%(92.6%),在mAP精度上达到81.9%(86.5%)。MRCN-P在Rank-1准确度和mAP准确度上分别比第二好的MMN 高出3.5%和5.1%。
SYSU-MM01:表1对SYSU-MM01的分析结果表明,MRCN在All-Search和indoor search两种模式下都具有竞争力。对于AllSearch模式,MRCN (MRCN- p)在Rank-1的准确率达到68.9%(70.8%),在mAP的准确率达到65.5%(67.3%)。对于Indoor-Search模式,MRCN (MRCN- p)的Rank-1准确率为76.0% (76.4%),mAP的准确率为79.8%(80.0%),对比结果验证了该方法的有效性。此外,研究结果还表明,MRCN (MRCN- p)可以有效地降低VIS和NIR图像之间的模态差异。
此外,与SYSU-MM01相比,RegDB中的人物姿态在VIS和NIR图像之间更加对齐。MRCN中的MCM用于补偿模态-相关特征为其他模态的特征,这在姿势对齐时具有积极的影响。因此,MRCN可以在RegDB上产生更好的结果。在推理效率方面,一方面,MRCN虽然比这些方法消耗更多的时间,但VI-ReID任务的评估消耗的时间并不多(约为25-32s)。另一方面,MRCN虽然使用了更多的时间,但在Rank-1和mAP中取得了显著的结果改善(95.1%和89.2%)。
消融研究
不同成分的影响 为了证明每个组分对MRCN的贡献,我们对RegDB和SYSU-MM01进行了一些消融研究。如表2所示,不使用CQC损失的MRCN可以提高基线模型的性能,这表明模态恢复和补偿可以有效地减少模态差异。相比之下,具有CQC损失的MRCN可以促进模态相关和模态无关特征的解耦。此外,特征的抽离有助于有效地学习更丰富的信息,从而提高模型的性能。此外,MRM和MCM都可以提高基线模型的性能,并且两个组件的组合可以达到最佳性能,表明MRM和MCM可以互补。
在ResNet-50的哪个阶段插入MRCN的有效性 我们将MRCN插入ResNet-50的不同阶段,研究它如何影响MRCN的性能。从表3可以看出,RegDB上stage-1后的MRCN和SYSU-MM01上stage-0后的MRCN分别达到了最佳性能,这说明RegDB经过stage-1, SYSU-MM01经过stage-0后,所提出的MRCN更适合于模态相关和模态无关特征的分离。
与信噪比比较 信噪比(Jin et al . 2020)与MRCN相似,因为这两种方法都采用了特征解缠技术来减少风格差距。然而,MRCN与信噪比在以下三个方面有所不同:(1)信噪比只向网络提供与身份相关的特征,而丢弃与身份无关的特征,然而,MRCN弥补了其他模式的特点。(2) SNR的输出直接输入到loss中进行解耦,而MRCN将所有特征输入到骨干的其余部分,这可以看作是进一步的蒸馏,因此更有利于CQC loss对模态信息进行解耦。这就是MRCN优于信噪比的原因。(3)信噪比适用于较小的样式间隙,可以丢弃。然而,当面对较大的风格差距,如VIS和NIR图像时,最好是用其他形式来弥补风格差距。因此,MRCN在VI-ReID中优于信噪比。为了公平比较,我们在表4中对SNR和MRCN使用相同的基线进行了实验,结果表明,在RegDB上,MRCN在Rank-1精度上比SNR高6.3%,在mAP上比SNR高7.2%,在SYSU-MM01上,MRCN在Rank-1精度上比SNR高5.1%,在mAP上比SNR高4.3%。实验结果表明,MRCN在减小模态差异方面比信噪比更有效。
不同注意力块的影响 在MRCN中,se块用于提取模态信息,其他注意块也可以实现这一目的。MRCN性能改进的关键是将特征输入到主干的其余部分通过CQC损失进行解耦,表2中有/没有CQC损失的MRCN结果证实了这一点。此外,我们比较了不同注意力块(CBAM, eca块, se块)对RegDB (R-1 / mAP)上MRCN的影响如下:91.1 / 83.9,91.4 / 84.1,91.4 / 84.6,结果表明,不同的注意块对学习成绩没有显著影响。
超参数λ2对CQC损耗的影响 在Eq.(11)中,我们使用参数λ2来控制LCQC与Llsce和Ltri之间的权衡。为了评估影响,我们进行了定量比较,并在图4中报告了结果,结果表明,当参数λ2为1.2时,系统性能最佳。
可视化
特征分布 为了研究MRCN有效的原因,我们在图5 (ae)中进行了实验来计算类间和类内距离的频率。对比图5 (c-e)和图5 (a-b)可以发现,类间和类内距离的均值被MRM和MCM推离,其中δ1 <δ2 <δ3和δ1 <δ2 <δ4。与初始特征和基线特征的类内距离相比,MRCN的类内距离明显减小。结果表明,MRCN可以有效地减小VIS模态与NIR模态之间的模态差异。为了进一步验证所提出的MRCN的有效性,我们绘制了MRCN特征表示在二维特征空间中的t-SNE (Maaten and Hinton 2008)分布,用于可视化。如图5 (f-j)所示,所提出的MRCN可以大大缩短VIS模态与NIR模态中相同身份对应的图像之间的距离,有效减小模态差异。
检索结果 为了进一步评估所提出的MRCN,我们使用多镜头设置和全搜索模式,在SYSU-MM01数据集的几对图像上,将我们的方法获得的检索结果与基线获得的检索结果进行了比较,结果如图6所示。对于每个检索案例,第一列显示的查询图像为近红外图像,后面列显示的图库图像为VIS图像。检索到的带有绿色边界框的图像与查询属于相同的身份,而带有红色边界框的图像与查询相反。总的来说,所提出的MRCN可以有效地提高排名结果,使更多的绿色边界框排在前几位。
结论
在本文中,我们提出了一种新的MRCN来缩小VIS和NIR模式之间的差距,具体来说,我们首先通过使用两个IN层来减少模态差异。接下来,为了减少IN层对去除判别信息的影响,我们提出了一个MRM模块来提取与模态无关的特征,并提出了一个MCM模块来从被去除的信息中提取与模态相关的特征,然后,使用模态无关特征来恢复归一化的VIS和NIR特征,而使用模态相关特征来补偿其他模态特征,此外,我们提出了一种新的CQC损失来鼓励网络有效地学习解纠缠的特征。大量的实验验证了我们的方法在具有挑战性的SYSU-MM01和RegDB数据集上的VI-ReID的优越性。
本文暂时没有评论,来添加一个吧(●'◡'●)