计算机系统应用教程网站

网站首页 > 技术文章 正文

弱监督目标定位与检测综述

btikc 2024-09-02 17:00:57 技术文章 11 ℃ 0 评论
  • 原文标题:Weakly Supervised Object Localization and Detection: A Survey
  • 原文地址:https://ieeexplore.ieee.org/document/9409690

摘要

作为计算机视觉领域中一个新兴且具有挑战性的研究方向,弱监督目标定位与检测在构建新一代视频学习与图像理解中扮演着重要角色,并且在过去十年中受到了广泛的关注。由于研究者们已经从不同视角提出了实现弱监督目标定位与检测的方法,对这些方法进行全面、系统的总结与综述迫在眉睫。在本文中,我们回顾(1)基于经典模型的方法,(2)利用off-the-shelf深度网络特征的方法,(3)深度弱监督学习方法,以及(4)在该领域被广泛使用的公开数据集及评价标准。为了进一步促进该研究领域的发展,本文还将讨论该领域的主要挑战,该领域的发展历史,不同类方法的优缺点,不同类方法之间的关系,弱监督目标定位与检测方法的应用以及未来的潜在发展方向。

绪论

弱监督学习(WSL)近年来受到了计算机视觉学界的广泛关注。在过去的十年里,有许多基于弱监督学习的视觉学习方法被提出以解决具有挑战性的计算机视觉任务,包括语义分割、目标检测和三维重建等。如图1所示,WSL问题的定义为:训练数据标注的精细程度低于要求系统预测的精细程度的学习任务。与传统的学习框架(如全监督学习方法)相比,WSL框架可以大大减少对训练样本进行精细标注的人力成本。本文主要对现有的弱监督目标定位与检测方法(图1中红色的点)进行总结。

图1. 弱监督视觉学习任务的简要说明。其中蓝色区域表示常规的全监督学习任务,而红色区域表示弱监督学习任务。坐标轴显示了由低到高不同成本的人工标注需求。需要注意的是,高成本标注可以很容易地转化为低成本标注,例如从边框级到图像级,而低成本标注很难转化为高成本标注。在图的底部,我们还显示了标签成本(根据标注时间)和不同类型标注的示例。

由于弱监督目标定位与检测方法主要利用图像级的人工标注,学习框架不仅需要解决在传统的全监督任务中遇到的挑战(诸如外观、尺度、高比等典型的类内变化问题),还需要克服由于人工标注与系统真正所需要监督信号不一致所引起的挑战——学习不确定性。具体来说,弱监督目标定位与检测将面临不准确示例位置学习、噪声标签学习、领域漂移学习、欠示例样本学习等挑战。

在本工作中,我们回顾了现有的弱监督目标定位与检测方法,将其分为三个主要类别(分别是基于经典模型的方法、利用off-the-shelf深度模型特征的方法和深度弱监督学习方法)和八个子类别(包括基于初始化的方法、基于模型细化的方法、基于初始化和模型细化方法、基于深度特征预处理的方法、基于深度模型内在线索的方法、基于深度模型微调的方法、单网络训练方法和多网络训练方法)。我们进一步讨论了不同类方法之间的关系。此外,我们还讨论了当前研究中存在的问题和挑战,并提出了一些未来具有前景的研究方向,以构建更有效的弱监督目标定位与检测框架。

现有方法

在过去的十年里,研究者们提出了大量的弱监督目标定位与检测方法。我们可以根据是否使用经典模型、off-the-shelf深度模型特征以及是否基于深度弱监督学习框架来将现有的方法分为三个主要类别。在每个主要类别中,我们将方法进一步划分为两到三个子类别。图2展示了我们的整体分类架构。此外,图3回顾了各主要类别方法以及整个研究领域的发展历史。其中基于经典模型的方法在2002年左右出现。从2002年到2009年,这一领域的研究进展非常缓慢。自2014年以来,许多基于经典模型的方法和利用off-the-shelf深度模型特征的方法被开发出来并受到了广泛的关注。而在最近几年,更多的基于深度弱监督学习的方法已经成为解决弱监督目标定位与检测问题的主流思路。根据图中的发展趋势,可以看出这个领域正得到越来越多的关注。

基于经典模型的方法

基于经典模型的方法通常由一个初始化模块和一个细化过程组成,如图4所示。在一些方法中,检测器基于DPM[1]构建。在另一些方法中,检测器基于SVM分类器构建。这些方法使用手工设计的特征描述符,如HOG, SIFT和Lab color。这些特征有时被用来构建更高层次的特征表达如bag-of-words(BOW)[6]、Fisher向量表示[7]、基于子空间的表示[8]等。

虽然基于经典模型的弱监督目标定位与检测方法是该领域的早期研究,但其所构建的两阶段学习框架,即学习初始化阶段和模型细化阶段,在后续的工作中得到了广泛的应用。在学习初始化阶段,这些方法提供了两种信息线索来推断候选目标区域。一种是自底向上的线索,包括区域显著性、似物性、类内一致性、类间判别性等。另一种是自上而下的线索,它通常为学习过程提供外观先验。需要注意的是,由于这种自上而下的线索很难从弱标记数据中获取,所以人们通常利用辅助训练数据(具有实例级手动标注)来探索自上而下的线索,然后将这些线索迁移到弱标注的目标数据中。在细化阶段,采用经典的机器学习模型,如SVM和CRF,逐步细化感兴趣目标的外观和位置。该类方法的优点是学习过程可以在小规模的训练数据上实现,整个框架在训练阶段和测试阶段都可以快速进行。其缺点是由于特征表示和模型复杂度的限制,其性能并不令人满意。

利用off-the-shelf深度模型特征的方法

利用off-the-shelf深度模型特征的方法通常需要利用ImageNet数据集(带有图像标签注释)进行预训练,亦或对目标域的弱监督训练图像进行进一步微调。此类方法所使用的特征表示基于广泛应用于图像分类的深度模型,如AlexNet和VGG。检测器基于经典模型如DPM和SVM或深度检测模型如RCNN和Fast RCNN。如图5所示,我们将该类方法细分为三个子类,分别是使用预训练深度特征的方法、基于深度模型微调的方法和基于内部深度模型线索的方法。

将off-the-shelf深度模型引入到弱监督目标定位与检测框架中是将深度学习和弱监督目标结合起来的直接策略。这类方法表明:1)特征学习是改善弱监督学习过程的重要因素;2) DCNN模型在图像级监督下学习时能够推断出具有语义判别特性的空间位置;3)基于大规模辅助训练数据的DNN预训练模型是一种简单而有效的编码弱监督学习过程中有用线索的方式。与基于经典模型的方法相比,此类方法利用大规模的辅助训练数据来学习强大的特征表示和自顶向下的线索。通过使用DNN模型作为目标检测器或定位器,可以获得显著的性能增益。然而,此类方法忽略了在弱监督学习过程中的在线特征学习过程。

深度弱监督学习方法

与前几节讨论的方法不同,深度弱监督学习方法的特征表示和目标检测器都是通过重新设计的深度神经网络在线学习得到。整个弱监督学习框架可以设计在一个紧凑的网络模型中(如[2]、[3])或者包含几个功能不同的DNN组件(如[4]、[5])。我们将这些方法分别归类为基于单网络训练的方法和基于多网络训练的方法。

与利用off-the-shelf深度模型特征的弱监督目标定位与检测方法相比,深度弱监督学习方法充分利用了深度学习和弱监督学习方法的优点。尽管没有在学习初始化阶段进行复杂的设计,该类方法依然可以通过在端到端的DCNN模型训练中引入MIL机制来得到良好的性能。与此同时,基于多网络训练的方法通过结合多个特定功能的网络,可以进一步提高学习性能。值得注意的是,从弱监督模块中提取信息的有效程度也会限制此类方法的性能。因此,先验知识可以引入此类方法来辅助引导弱监督下的稳健深度网络学习过程。

数据库与评价指标

现有的弱监督目标检测方法通常在PASCAL VOC数据集上进行测评,包括PASCAL VOC 2007、2010和2012数据集,他们分别包含20个目标类别以及9,962、21,738和22,531张图像。这三个数据集被分为train、val和test子集。一般使用(mAP)来度量弱监督目标检测算法的性能。

弱监督目标定位性能通常在PASCAL VOC、ILSVRC和CUB数据集上进行评估。在PASCAL VOC数据集上,弱监督目标定位方法只使用训练集,这与弱监督目标检测任务中的设置不同。为了评估在PASCAL VOC数据集上的定位性能,通常采用CorLoc指标。除了PASCAL VOC数据集,ILSVRC 2016数据集[9](即ImageNet)和CUB-200-2011数据集[10]也被广泛用于弱监督目标定位的性能评估。ILSVRC 2016数据集包含1000个类的120多万张图片用于训练,50000张图片的验证集用于测试。CUB-200-2011数据集包含200个类别的11,788张图像,其中5,994张用于训练,5,794张用于测试。对于这两个数据集,常用的评价指标是GT-known定位精度(即GT Loc)、Top-1定位精度(即Top-1 Loc)和Top-5定位精度(即Top-5 Loc)。在表1中,我们对上述数据集的特性进行了简要总结。

应用

近年来,弱监督目标定位与检测技术被广泛应用于GT标签难以获取的各类视觉任务中。1)视频理解:由于获取每个视频帧中的物体级注释耗时较长,弱监督目标定位与检测方法被应用于视频理解领域,例如视频动作及物体的定位与检测[11,12,13]。值得注意的是,当应用于视频理解时,相邻视频帧之间有很强的相关性。因此,我们可以引入额外的相关性约束来促进弱监督目标的检测或定位。2)艺术图片分析:由于艺术图像的人工标注更加稀缺,弱监督目标定位与检测技术在艺术图片分析领域的应用显得意义重大。已有的工作所做的研究包含对水墨画[14]、油画[15]、文物照片[16]等图像数据进行处理。3)医学影像分析:医学图像分析是弱监督目标定位与检测方法至关重要的一个领域,因为获得临床影像数据的标注成本巨大。得益于弱监督目标定位与检测技术,现有的研究已经在眼部、胸腔、脑部等病变和肿瘤的检测等方向取得了进展[17,18,19]。4)遥感影像解译:遥感影像解译是弱监督目标定位与检测的最直接的应用领域之一,遥感影像与普通图像相比,幅面更广,目标更小,因此人工标注过程往往更加耗时耗力。已有的工作利用弱监督目标定位与检测技术完成了标注缺失条件下光学遥感影像中各类目标的定位与检测[40]。

未来研究方向

1)多实例学习:在弱监督目标定位与检测框架内便捷地嵌入多实例学习框架(MIL)技术是未来发展的关键技术之一。除了经典的MIL模型,我们需要进一步引入更先进的MIL技术以解决经典MIL中固有的set-level issue[20]、key instance shift issue [21]和scalable issue[22]。对MIL技术的研究将促进弱监督目标定位与检测技术的进一步发展。

2)多任务学习:将多个弱监督学习任务整合于统一的学习框架中使之相互提供有益辅助信息是未来的发展方向之一。能够整合的任务包括目标检测[23]、语义分割[24]、实例分割[25]、三维重建[26]和深度估计[27]等。多任务弱监督学习中存在的关键挑战在于:该机制会积累各个任务的学习不确定性,其中一个任务的不精确预测可能会影响其他任务的学习。为了解决这一问题,我们可能需要对复杂的多任务学习进行分解:首先,每个任务进行单独的学习;然后,利用每个任务的置信知识为其他任务提供先验,指导学习过程。

3)鲁棒学习理论:针对弱监督学习过程中固有的学习不确定性问题,鲁棒学习策略将是未来发展的关键技术之一,其目的是为了降低在学习过程中预测得到的噪声label的影响。在这种学习策略的实施过程中,早期学习阶段通常选择简单且置信度高的训练样本,后期学习阶段选择困难或label预测不准确的训练样本。

4)强化学习与对抗学习:除了传统的CNN模型外,将前沿的机器学习模型应用于弱监督目标定位与检测框架中也是值得探索的方向之一。深度强化学习认为生物视觉系统是一个随视网膜注视点转移而改变的连续过程[28],在搜索或定位物体的过程中逐渐累计准确信息。设计深度强化学习框架模拟这一过程有助于解决计算机视觉领域中的目标定位、检测和跟踪问题[29]、[30]、[31],亦可启发实现弱监督目标定位与检测模型的学习过程[32]。对抗学习在无监督和半监督学习场景中具有显著优势[33]、[34],其可以在缺少监督信息的条件下生成所需的数据分布。这使得对抗学习在解决弱监督目标定位和检测问题上具有巨大潜力。尽管已有的方法[35]、[36]、[37]已经将对抗学习机制引入到弱监督目标的定位与检测中,但在这一方向上的探索仍有很大的改进空间。

5)先验引导下的深度多实例学习:目前大多数深度弱监督目标检测方法都没有在其学习框架中引入任何先验知识。然而,在弱监督学习过程中引入先验知识可有效地避免模型漂移问题。如何构建有效的深度MIL框架,将有用的先验知识嵌入到弱监督学习过程还需进一步探索。此外,协同模式的挖掘[38]、[39]亦可用成为有益先验以指导弱监督目标定位与检测框架下的深度多实例学习过程。

结论

本文对弱监督目标定位与检测研究领域的现有文献进行了一个全面综述。从该任务的定义以及使弱监督学习过程难以实施的关键挑战入手,逐步介绍了该领域的发展历史,弱监督目标定位与检测方法的分类以及不同类别之间的关系。在回顾了每一类方法后,我们介绍了该领域广泛使用的基准数据集和评价指标,随后回顾了现有弱监督目标定位与检测算法的应用。最后,我们指出了可能进一步推动该研究领域发展的几个未来方向。

参考文献

[1] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part-based models. IEEE TPAMI, 32(9):1627–1645, 2010.

[2] Y. Gao, B. Liu, N. Guo, X. Ye, F. Wan, H. You, and D. Fan. C midn: Coupled multiple instance detection network with segmentation guidance for weakly supervised object detection. In ICCV, pages 9834-9843, 2019.

[3] V. Kantorov, M. Oquab, M. Cho, and I. Laptev. Contextlocnet: Contextaware deep network models for weakly supervised localization. In ECCV, pages 350–365, 2016.

[4] A. Diba, V. Sharma, A. Pazandeh, H. Pirsiavash, and L. Van Gool. Weakly supervised cascaded convolutional networks. In CVPR, pages 914–922, 2017.

[5] W. Lu, X. Jia, W. Xie, L. Shen, Y. Zhou, and J. Duan. Geometry constrained weakly supervised object localization. In ECCV, pages 481-496, 2020.

[6] Z. Shi, T. M. Hospedales, and T. Xiang. Bayesian joint modelling for object localisation in weakly labelled images. IEEE TPAMI, 37(10):1959–1972, 2015.

[7] R. Gokberk Cinbis, J. Verbeek, and C. Schmid. Multi-fold mil training for weakly supervised object localization. In CVPR, pages 2409–2416, 2014.

[8] L. Cao, F. Luo, L. Chen, Y. Sheng, H. Wang, C. Wang, and R. Ji. Weakly supervised vehicle detection in satellite images via multi-instance discriminative learning. PR, 64:417–424, 2017.

[9] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. Imagenet large scale visual recognition challenge. IJCV, 115(3):211–252, 2015.

[10] C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie. The caltechucsd birds-200-2011 dataset. 2011.

[11] J. Schroeter, K. Sidorov, and D. Marshall. Weakly-supervised temporal localization via occurrence count learning. in ICML, pages 5649–5659, 2019.

[12] D. Zhang, J. Han, L. Yang, and D. Xu. Spftn: A joint learning framework for localizing and segmenting objects in weakly labeled videos. IEEE TPAMI, 42(2): 475-489, 2018.

[13] P. Nguyen, T. Liu, G. Prasad, and B. Han. Weakly supervised action localization by sparse temporal pooling network. In CVPR, pages 6752–6761, 2018.

[14] N. Inoue, R. Furuta, T. Yamasaki, and K. Aizawa. Cross-domain weakly-supervised object detection through progressive domain adaptation. In CVPR, pages 5001–5009, 2018.

[15] N. Gonthier, Y. Gousseau, S. Ladjal, and O. Bonfait. Weakly supervised object detection in artworks. In ECCV, pages 692–709, 2018.

[16] E. J. Crowley and A. Zisserman. Of gods and goats: Weakly supervised learning of figurative art. In BMVC, 8:14, 2013.

[17] K. Wu, B. Du, M. Luo, H. Wen, Y. Shen, and J. Feng. Weakly supervised brain lesion segmentation via attentional representation learning. In MICCAI, pages 211–219, 2019.

[18] Z. Ji, Y. Shen, C. Ma, and M. Gao. Scribble-based hierarchical weakly supervised learning for brain tumor segmentation. In MICCAI, pages 175–183, 2019.

[19] D. Bontempi, S. Benini, A. Signoroni, M. Svanera, and L. Muckli. Cerebrum: a fast and fully-volumetric convolutional encoder-decoder for weakly-supervised segmentation of brain structures from out of the-scanner mri. MIA, 62:101688, 2020.

[20] B.-C. Xu, K. M. Ting, and Z.-H. Zhou. Isolation set-kernel and its application to multi-instance learning. In KDD, pages 941-949, 2019.

[21] Y.-L. Zhang and Z.-H. Zhou. Multi-instance learning with key instance shift. In IJCAI, pages 3441–3447, 2017.

[22] S.-J. Huang, W. Gao, and Z.-H. Zhou. Fast multi-instance multi-label learning. IEEE TPAMI, 41(11): 2614-2627,2018.

[23] R. Girshick. Fast r-cnn. In ICCV, pages 1440–1448, 2015.

[24] L. C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE TPAMI, 40(4):834–848, 2018.

[25] A. Khoreva, R. Benenson, J. Hosang, M. Hein, and B. Schiele. Simple does it: Weakly supervised instance and semantic segmentation. In CVPR, pages 876–885, 2017.

[26] H. Fan, S. Hao, and L. Guibas. A point set generation network for 3d object reconstruction from a single image. In CVPR, pages 605-613, 2017.

[27] C. Godard, O. Mac Aodha, and G. J. Brostow. Unsupervised monocular depth estimation with left-right consistency. In CVPR, pages 270-279, 2017.

[28] H. Larochelle and G. E. Hinton. Learning to combine foveal glimpses with a third-order boltzmann machine. In NIPS, pages 1243-1251, 2010.

[29] J. C. Caicedo and S. Lazebnik. Active object localization with deep reinforcement learning. In ICCV, pages 2488-2496, 2015.

[30] C. Huang, S. Lucey, and D. Ramanan. Learning policies for adaptive tracking with deep feature cascades. In ICCV, pages 105-114, 2017.

[31] Z. Jie, X. Liang, J. Feng, X. Jin, W. Lu, and S. Yan. Tree-structured reinforcement learning for sequential object localization. In NIPS, pages 127-135, 2016.

[32] D. Zhang, J. Han, L. Zhao, and T. Zhao. From discriminant to complete: Reinforcement searching-agent learning for weakly supervised object detection. IEEE TNNLS, 31(12): 5549-5560, 2020.

[33] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio. Generative adversarial nets. In NIPS, pages 2672–2680, 2014.

[34] A. Shrivastava, T. Pfister, O. Tuzel, J. Susskind, W. Wang, and R. Webb. Learning from simulated and unsupervised images through adversarial training. In CVPR, pages 2107–2116, 2017.

[35] A. Diba, V. Sharma, R. Stiefelhagen, and L. Van Gool. Weakly supervised object discovery by generative adversarial & ranking networks. In CVPR Workshops, pages 0-0, 2019.

[36] Y. Shen, R. Ji, S. Zhang, W. Zuo, and Y. Wang. Generative adversarial learning towards fast weakly supervised detection. In CVPR, pages 5764–5773, 2018.

[37] X. Zhang, Y. Wei, J. Feng, Y. Yang, and T. S. Huang. Adversarial complementary learning for weakly supervised object localization. In CVPR, pages 1325–1334, 2018.

[38] D.-P. Fan, T. Li, G.-P. Ji, D. Zhang, M.-M. Cheng*, H. Fu, J. Shen. Re-thinking Co-Salient Object Detection. IEEE TPAMI, 2021 (online published)

[39] D. Zhang, D. Meng, and J. Han. Co-saliency detection via a self-paced multiple-instance learning framework. IEEE TPAMI, 39(5):865–878, 2016.

[40] X. Yao, X. Feng, J. Han, G. Cheng, and L. Guo. Automatic weakly supervised object detection from high spatial resolution remote sensing images via dynamic curriculum learning. IEEE TGRS, 59(1):675–685, 2020.

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表