CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT

CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT

 

文章摘要


【关 键 词】 VPT三维姿态计算效率沙漏TokenizerHoT框架

北京大学的研究团队针对基于视频的三维人体姿态估计领域中Video Pose Transformer(VPT)的高计算成本问题,提出了一种新的高效三维人体姿态估计框架——沙漏Tokenizer(Hourglass Tokenizer,HoT)。这一框架旨在降低VPT模型的计算量,同时保持精度,解决了现有VPT模型对计算资源的高需求限制。

研究动机在于VPT模型中自注意力机制的计算复杂度与视频帧数的平方成正比,导致处理高时序分辨率视频时的巨大计算开销。此外,视频序列内部帧之间的冗余性没有得到有效利用,造成不必要的计算负担。为了提高VPT的效率,研究者认为需要考虑三个因素:保持较大的时间感受野、去除视频冗余、实现seq2seq的快速推理。

HoT框架的核心在于通过Token剪枝聚类(Token Pruning Cluster,TPC)和Token恢复注意力(Token Recovering Attention,TRA)两个模块,动态选择具有高语义多样性的代表性Token,并在降低视频冗余的同时保留必要信息。TPC模块通过聚类算法选择聚类中心作为代表性Token,而TRA模块则基于所选Token恢复详细的时空信息,从而实现快速推理。

实验结果表明,HoT框架能够在保持模型参数量几乎不变的同时,显著减少FLOPs,并且大幅提高FPS。与传统VPT模型相比,HoT不仅提升了处理效率,还实现了高度竞争性甚至更好的结果。此外,HoT展现了极高的通用性,可以无缝集成到常规的VPT模型中,适配各种Token剪枝和恢复策略。

研究者还提供了代码和运行示例,通过集成YOLOv3人体检测器、HRNet二维姿态检测器、HoT w. MixSTE二维到三维姿态提升器,用户可以轻松地运行demo并获得三维人体姿态估计结果。

总结来说,HoT框架为基于视频的三维人体姿态估计领域提供了一种新的解决方案,通过有效地减少计算量和提升效率,有望推动更强、更快的VPT模型的开发。

原文和模型


【原文链接】 阅读原文 [ 3223字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...