网站首页 > 技术文章正文

3D人体姿态估计方法 MHFormer:Multi-Hypothesis Transformer

btikc 2025-01-13 11:10:39 技术文章 17 ℃ 0 评论

arXiv上2021年11月24日上传论文”MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation“，作者主要来自北大深圳研究生院和瑞士ETH。

由于深度图多义性和自遮挡这两个因素，单目视频估计三维人体姿势是一项具有挑战性的任务。大多数现有的工作都试图通过利用空域和时域关系来解决这两个问题。然而，这些工作忽略了一个事实，即存在多个可行解（即假设）的逆问题。

提出一种Multi-Hypothesis Transformer（MHFORER），学习多个合理姿势假设的时空表示。为了有效地建模多假设依赖关系，并在假设的特征之间建立强关系，任务被分解为三个阶段：（i）生成多个初始假设表征；（ii）建立自我假设通信模型，将多个假设合并为一个单一的聚合表征，然后将其划分为多个不同的假设；（iii）学习跨假设通信，并聚合多假设特征，合成最终的3D姿势。通过上述过程，最终的表征得到了增强，合成的姿势更精确。实验在两个具有挑战性的数据集进行：Human3.6M和MPI-INF-3DHP。

代码可下载：https://github.com/Vegetebird/MHFormer

单目视频的3D人体姿势估计（HPE）是一项基本的视觉任务，具有广泛的应用，如动作识别、人机交互和增强/虚拟现实。此任务通常通过将其划分为两个解耦的子任务来解决，即2-D姿势检测，图像平面上定位关键点，然后进行2D到3D提升以从2-D姿势推断关节在3-D空间中的位置。

如图是MHFormer的框架概览图：构建一个三步骤框架，首先生成多个初始表征，然后以独立和相互的方式进行通信，合成更精确的估计。注：这里只显示单帧2D姿势作为输入的过程。

该框架更有效地建模了多假设的依赖关系，同时也在假设特征之间建立了更强的关系。

具体而言，在第一阶步骤，引入多假设生成（MHG）模块，对人体关节的固有结构信息进行建模，并在空域生成多个多级特征（multi-level feature）。这些特征包含从浅到深不同深度的语义信息，因此可被视为多个假设的初始表征。

在第二步骤，提出了一个自假设细化（Self-Hypothesis Refinement，SHR）模块来细化每个假设特征。作者提出两个模块来对时域一致性进行建模，并增强时域那些粗糙表征。

第一个模块是多假设自注意（multi-hypothesis self-attention，MH-SA），独立地对单个假设依赖性进行建模，构建自假设通信，z能够在每个假设内传递消息以增强特征。；第二个模块是混合假设（hypothesis-mixing）多层感知器（MLP），跨假设交换彼此信息。多个假设合并为一个收敛表征，划分为多个不同的假设。

最后一个步骤，跨假设交互（CHI）模块对多假设特征之间的交互进行建模。CHI的一个关键设计模块是多假设交叉注意（MH-CA），捕获彼此多假设相关性，以建立交叉假设通信，能够在假设之间传递信息，更好地进行交互建模。随后，另外一个模块，即假设混合MLP，聚合多个假设，合成最终预测。

如图所示：（a） Multi-Hypothesis Transformer（MHFORER）概述；（b）多假设生成（MHG）模块提取每帧人体关节的固有结构信息，并生成多个假设表征；这里，N表示输入帧的数目，T表示转置操作；（c）自假设细化（SHR）模块用于细化单个假设特征；（d） SHR之后的交叉假设交互（CHI）模块支持多假设特征之间的交互。

MH-SA缺乏跨假设的联系，这限制了其交互建模。为了捕获多个假设彼此之间的相关性以进行交叉假设通信，提出多个多头交叉注意（MCA）元素并行组成的MH-CA。

如图是一点儿NN架构细节：左边是Multi-head self-attention（MHA），右边是Multihead cross-attention (MCA)，二者结果相似。

MHSA旨在独立地捕获每个假设的单假设相关性，以便进行自假设通信。这里，MCA采用了一种更有效的策略，通过不同的输入（M个MCA块）来减少参数的数量。

训练的损失函数定义为Mean Per Joint Position Error (MPJPE) loss，即

实验结果如下：

如图是MHFormer和基准方法PoseFormer（”3d human pose estimation with spatial and temporal transformers”. ICCV‘21）的比较：

上一篇： 1小时入门增强现实技术
下一篇：西安电子科技大学学子获ECCV计算机视觉单模型6D姿态估计挑战赛冠军

网站首页 > 技术文章正文

3D人体姿态估计方法 MHFormer:Multi-Hypothesis Transformer

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术文章 正文

3D人体姿态估计方法 MHFormer:Multi-Hypothesis Transformer

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术文章正文

取消回复欢迎你发表评论: