计算机系统应用教程网站

网站首页 > 技术文章 正文

芯语 | 进行两阶段人体姿态估计的研究

btikc 2024-10-20 05:02:25 技术文章 6 ℃ 0 评论

什么是人体姿态估计?

人体姿态估计是计算机视觉研究的重要课题之一,它主要是利用深度神经网络从二维图像中抽取出人体的关键点位置。无论是单人姿态估计还是多人姿态估计,其识别结果的好坏很大程度上依赖于环境的影响。人体遮挡、光照强度、不同的尺度和角度都会对识别结果造成干扰。

多人体姿态估计的解决方案

对于多人姿态估计来说,现有的解决方案主要分为两种。其中一种是自底向上,即先检测出所有的人体关键点,然后对关键点进行聚类组成一个个独立的人。另外一种自顶向下,主要是通过人体检测器先检测出所有的人,然后再独立地检测出每个人的关节,而使用这种方法的大都采用直接回归最后的关键点位置置信图的方法。

自底向上的方法一般来说准确率相对较低,容易出现不同人体之间关节相互交错等结果。自顶向下的方法大都采用直接回归关键点位置置信图的方式。受限于实际应用中带宽的影响,网络输出需要具有比较低的分辨率,而在低分辨输入的情况下,大多数现存网络识别结果会急剧恶化。我们提出了一种基于预测关键点位置和回归偏移量相结合的自顶向下的方案(Offset-guided Network,OGN算法)。对于一幅待处理图像,通过人体检测器,所有的单人都会被用一个矩形框标识出来。每一个被矩形框选中的部分都会被裁剪出来送入单人姿态估计器。单人姿态估计网络主要通过ResNet网络结构进行特征的抽取,然后利用转置卷积进行上采样适当提高输出图像分辨率。在网络的最后使用了两个分支分别用来预测关键点位置和关键点偏移量。相对于大多数其他方案,对输出图像分辨率敏感度较低。OGN算法可以在低分辨率输出的情况下保持较高的识别正确率,具有较强的鲁棒性和比较高的精度,能够在各种复杂场景下具有良好的表现能力。

下面是OGN算法的整体框架,(a)描述的是系统的人体检测器模块,检测出来的单人局部区域随后被裁剪出来送入系统的(b)模块。(b)模块从单人局部图像信息中进行特征抽取得到特征表示层。(C)模块对特征表示层进行合理上采样并输出关键点位置信息以及相应的关键点偏移量,通过对两者的融合得到最后的人体关键点。

在COCO数据集的多人关键点估计任务上面,我们所实现的OGN算法可以在不同分辨率输入,尤其是低分辨率输入的情况下取得不错的结果,如下表所示:

在步长为8时,同时进行分类和回归在COCO2017 val set,resnet50作为backnone上可以带来1.5%的提升。

在COCO test-dev上面,OGN算法的single model在2017年和2018年的AP指标分别为71.3和74.0,在当时分别能够排在第二位和第三位。

在PoseTrack数据集上,没有利用光流信息时,OGN算法在validation上面的map和MOTA指标分别是75.1和67.7,MOTA指标超过simple baseline 2.3%;当利用光流信息时,OGN算法在validation上面的map和MOTA指标分别是76.7和70.1,分别达到和超过了simple baseline;在test数据集上面的实验结论和validation数据集保持一致。

结语

人体姿态估计的应用场景距离我们并不遥远,它早已被广泛运用在自动驾驶、智能家居、安防、运动训练、文娱、新零售等众多领域。比如使用人体姿态估计来分析运动员的动作,寻求最佳训练效果;比如利用人体姿态估计实现顾客的虚拟试穿,完善目前网络购物无法试穿的困扰;又比如人体姿态估计提高了远程视频诊断骨科疾病的精确度。芯翌智能作为以深度神经网络核心算法为基石的人工智能解决方案提供商和运营服务商,将依托现有技术和研发力量在视觉识别的领域内继续深耕。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表