CVPR 2024 | 让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

AIGC动态1年前 (2024)发布 almosthuman2014

2,020 0 0

CVPR 2024 | 让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

文章摘要

【关键词】 VPT、三维姿态、计算效率、沙漏Tokenizer、HoT框架

北京大学的研究团队针对基于视频的三维人体姿态估计领域中Video Pose Transformer（VPT）的高计算成本问题，提出了一种新的高效三维人体姿态估计框架——沙漏Tokenizer（Hourglass Tokenizer，HoT）。这一框架旨在降低VPT模型的计算量，同时保持精度，解决了现有VPT模型对计算资源的高需求限制。

研究动机在于VPT模型中自注意力机制的计算复杂度与视频帧数的平方成正比，导致处理高时序分辨率视频时的巨大计算开销。此外，视频序列内部帧之间的冗余性没有得到有效利用，造成不必要的计算负担。为了提高VPT的效率，研究者认为需要考虑三个因素：保持较大的时间感受野、去除视频冗余、实现seq2seq的快速推理。

HoT框架的核心在于通过Token剪枝聚类（Token Pruning Cluster，TPC）和Token恢复注意力（Token Recovering Attention，TRA）两个模块，动态选择具有高语义多样性的代表性Token，并在降低视频冗余的同时保留必要信息。TPC模块通过聚类算法选择聚类中心作为代表性Token，而TRA模块则基于所选Token恢复详细的时空信息，从而实现快速推理。

实验结果表明，HoT框架能够在保持模型参数量几乎不变的同时，显著减少FLOPs，并且大幅提高FPS。与传统VPT模型相比，HoT不仅提升了处理效率，还实现了高度竞争性甚至更好的结果。此外，HoT展现了极高的通用性，可以无缝集成到常规的VPT模型中，适配各种Token剪枝和恢复策略。

研究者还提供了代码和运行示例，通过集成YOLOv3人体检测器、HRNet二维姿态检测器、HoT w. MixSTE二维到三维姿态提升器，用户可以轻松地运行demo并获得三维人体姿态估计结果。

总结来说，HoT框架为基于视频的三维人体姿态估计领域提供了一种新的解决方案，通过有效地减少计算量和提升效率，有望推动更强、更快的VPT模型的开发。