还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024
文章摘要
【关 键 词】 竖屏视频、数据集、视频分类、技术方案、CVPR2024
随着短视频在社交媒体的流行,竖屏视频成为了主流的视频格式。然而,传统视频处理技术主要集中在横屏视频上,忽视了竖屏视频的独特性。为了弥补这一研究空白,字节跳动技术团队发布了一个专注于竖屏视频理解的数据集,并提出了多个针对竖屏视频处理的技术点和一个初始方案,这项研究的成果已被CVPR2024接收。
该团队提出的数据集名为PortraitMode-400,它包含了400个结构化的类别标签和真实的视频数据,这些数据覆盖了从饮食运动到休闲娱乐等多个领域。为了展示横屏数据和竖屏数据之间的差异,团队从公开数据Kinetics-700中抽取了竖屏视频子集S100-PM和相等数量的横屏视频子集S100-LM,并在这两个子集上分别训练了模型,然后在相同的测试集上进行了比较。结果表明,竖屏和横屏视频在数据特性上存在显著差异,这些差异在准确率的空间分布上呈现出哑铃状分布。
为了进一步推动竖屏视频领域的研究,团队对竖屏视频数据的不同特性进行了实验,并提出了一套技术方案。实验涉及了不同的模型类别,包括CNN(X3D)、Transformer(MViT v2)、Hyrid-Transformer(Uniformer),并发现竖屏数据对数据预处理有着不同的倾向。例如,在CNN模型下更倾向于Inception-style预处理方案,而在Transformer类模型下则倾向于shorter-side resize方案。此外,保持视频在训练时的原始长宽比对提升准确率有显著帮助。实验还表明,时间信息和音频模态的加入可以显著提高竖屏视频数据的准确率。
这项研究不仅揭示了竖屏视频的独特数据特性,而且为未来的研究提供了宝贵的数据集和技术方向。通过专门针对竖屏视频的研究,可以推动相关技术的发展,增强视频内容分类、特征提取和推荐等关键能力,并激发竖屏领域其他类型研究的兴趣,如视频内容生成等。随着社交媒体对竖屏视频格式的持续偏好,这一领域的研究和应用将越来越重要。
原文和模型
【原文链接】 阅读原文 [ 1346字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★☆☆☆