谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

AIGC动态1年前 (2024)发布 AIera

2,073 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 VideoPrism、谷歌、AI视频模型、SOTA、通用视觉编码器

摘要：
谷歌团队最近推出了一种名为VideoPrism的通用视频编码器，它在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练，刷新了30项SOTA（最佳状态）记录。VideoPrism能够处理各种视频理解任务，如分类、定位、视频-文本检索和问答。该模型采用了两阶段训练法，首先通过对比学习对齐视频和文本编码器，然后进行全局和标记提炼。在多个视频理解基准测试中，VideoPrism展现了其强大的性能和通用性，特别是在分类和时空定位、零样本视频文本检索和分类、零样本视频字幕和质量检查以及科学领域的CV任务上。此外，消融研究进一步证实了数据管理和模型设计在提升视频理解方面的重要性。

详细总结：

1. VideoPrism的介绍：
谷歌团队的VideoPrism是一种通用视频编码器，它能够在单一冻结模型的基础上处理多种视频理解任务。这项技术在AI视频模型领域引起了广泛关注，尤其是在Meta和谷歌等大厂纷纷投入研究的背景下。

2. 训练数据与性能：
VideoPrism在包含3600万高质量视频字幕对和5.82亿视频剪辑的异构语料库上进行了预训练。这种训练策略充分利用了视频文本对，为模型提供了丰富的语义线索。在33项视频理解基准测试中，VideoPrism刷新了30项SOTA记录，显示出其卓越的性能。

3. 设计架构与训练方法：
VideoPrism的设计架构基于预训练数据，旨在解锁视频基础模型（ViFM）的潜力。谷歌研究人员采用了两阶段训练法，首先通过对比学习对齐视频和文本编码器，然后对语义嵌入进行全局和标记提炼。这种方法允许模型从语言监督中学习丰富的视觉语义，并在后续阶段进一步提高准确性。

4. 实验结果与应用：
VideoPrism在多个视频理解任务上展现了其能力和通用性，包括分类和时空定位、零样本视频文本检索和分类、零样本视频字幕和质量检查以及科学领域的CV任务。在这些任务中，VideoPrism不仅刷新了多项基准记录，而且在具有挑战性的数据集上取得了显著的进步。

5. 消融研究：
通过消融研究，研究人员发现数据管理和模型设计在促进视频中的运动理解方面发挥了重要作用。尽管对比基线已经在K400上取得了有竞争力的结果，但所提出的全局蒸馏和token洗牌进一步提高了准确性。

参考资料：
– 论文地址：[VideoPrism论文](https://arxiv.org/pdf/2402.13217.pdf)
– 谷歌研究博客：[VideoPrism介绍](https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html)