还得是抖音，字节推出竖屏视频理解数据集，入选CVPR2024

AIGC动态2年前 (2024)发布 almosthuman2014

3,404 0 0

文章摘要

【关键词】 竖屏视频、数据集、视频分类、技术方案、CVPR2024

随着短视频在社交媒体的流行，竖屏视频成为了主流的视频格式。然而，传统视频处理技术主要集中在横屏视频上，忽视了竖屏视频的独特性。为了弥补这一研究空白，字节跳动技术团队发布了一个专注于竖屏视频理解的数据集，并提出了多个针对竖屏视频处理的技术点和一个初始方案，这项研究的成果已被CVPR2024接收。

该团队提出的数据集名为PortraitMode-400，它包含了400个结构化的类别标签和真实的视频数据，这些数据覆盖了从饮食运动到休闲娱乐等多个领域。为了展示横屏数据和竖屏数据之间的差异，团队从公开数据Kinetics-700中抽取了竖屏视频子集S100-PM和相等数量的横屏视频子集S100-LM，并在这两个子集上分别训练了模型，然后在相同的测试集上进行了比较。结果表明，竖屏和横屏视频在数据特性上存在显著差异，这些差异在准确率的空间分布上呈现出哑铃状分布。

为了进一步推动竖屏视频领域的研究，团队对竖屏视频数据的不同特性进行了实验，并提出了一套技术方案。实验涉及了不同的模型类别，包括CNN（X3D）、Transformer（MViT v2）、Hyrid-Transformer（Uniformer），并发现竖屏数据对数据预处理有着不同的倾向。例如，在CNN模型下更倾向于Inception-style预处理方案，而在Transformer类模型下则倾向于shorter-side resize方案。此外，保持视频在训练时的原始长宽比对提升准确率有显著帮助。实验还表明，时间信息和音频模态的加入可以显著提高竖屏视频数据的准确率。

这项研究不仅揭示了竖屏视频的独特数据特性，而且为未来的研究提供了宝贵的数据集和技术方向。通过专门针对竖屏视频的研究，可以推动相关技术的发展，增强视频内容分类、特征提取和推荐等关键能力，并激发竖屏领域其他类型研究的兴趣，如视频内容生成等。随着社交媒体对竖屏视频格式的持续偏好，这一领域的研究和应用将越来越重要。