这项研究介绍了一种名为LRDif的新颖扩散基框架,专门针对基于Under-Display相机(UDC)的面部表情识别(FER)场景。为了应对UDC图像降解固有的挑战,例如降低锐度和增加噪声,LRDif采用了一种两阶段训练策略,将压缩初步提取网络(FPEN)和敏捷Transformer网络(UDCformer)集成在一起,有效地从UDC图像中识别情感标签。通过利用扩散模型的稳健分布映射能力和Transformer的时空依赖建模强度,LRDif有效地克服了UDC环境中的噪声和失真障碍。在包括RAF-DB、KDEF和FERPlus标准的FER数据集的全面实验中,LRDif展示了最先进的性能,强调了在推进FER应用方面的潜力。这项工作不仅解决了自己文献中关于FER UDC挑战的显著空白,而且为该领域未来的研究树立了一个新的基准。
https://arxiv.org/pdf/2402.00250.pdf
本文暂时没有评论,来添加一个吧(●'◡'●)