谷歌推出通用视频模型:能精准分类、定位、检索等

AIGC动态2个月前发布 AIGCOPEN
330 0 0
谷歌推出通用视频模型:能精准分类、定位、检索等

 

文章摘要


【关 键 词】 视频模型性能测试卷积神经Transformer应用前景

谷歌的研究人员开发了一种名为VideoPrism的通用视频模型,该模型在视频领域的多种任务上展现出了卓越的性能。

为了验证VideoPrism的性能,研究人员在33个视频理解基准测试集上进行了测试,这些测试集覆盖了四大类任务:通用视频理解、视频-文本检索、视频字幕生成和问答。

测试结果显示,VideoPrism在30个基准测试上均取得了最佳成绩,特别是在通用视频分类和定位任务上,其性能比目前最先进的视频模型VideoMAE-v2-g平均提升了22%的精准度。

VideoPrism的架构包括卷积神经网络用于特征提取,以及Transformer架构中的自注意力机制用于建模视频中不同时间步的特征。

模型还采用了残差连接和层归一化技术,以促进信息流动、保留原始特征信息,并提高模型的训练稳定性和泛化能力。

在预训练策略方面,VideoPrism主要分为两个阶段:第一阶段是视频-文本对比训练,通过对比损失函数对视频编码器和文本编码器进行联合训练,学习语义视频嵌入表示;第二阶段则通过掩码视频建模捕捉更多动态信息,并采用随机Token混洗和全局-局部知识蒸馏两种优化方法进行性能优化。

VideoPrism作为一款通用视频模型,具有广泛的应用前景

它可以在视频理解和分析、智能视频监控、视频检索和推荐、专业科学视频分析等领域进行精准的数据分析、归类和定位等操作。

这一模型的推出,为视频领域的研究和应用带来了新的突破和可能性。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1405字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明

相关文章

暂无评论

暂无评论...