谷歌推出通用视频模型：能精准分类、定位、检索等

AIGC动态1年前 (2024)发布 AIGCOPEN

1,923 0 0

文章摘要

【关键词】 视频模型、性能测试、卷积神经、Transformer、应用前景

谷歌的研究人员开发了一种名为VideoPrism的通用视频模型，该模型在视频领域的多种任务上展现出了卓越的性能。

为了验证VideoPrism的性能，研究人员在33个视频理解基准测试集上进行了测试，这些测试集覆盖了四大类任务：通用视频理解、视频-文本检索、视频字幕生成和问答。

测试结果显示，VideoPrism在30个基准测试上均取得了最佳成绩，特别是在通用视频分类和定位任务上，其性能比目前最先进的视频模型VideoMAE-v2-g平均提升了22%的精准度。

VideoPrism的架构包括卷积神经网络用于特征提取，以及Transformer架构中的自注意力机制用于建模视频中不同时间步的特征。

模型还采用了残差连接和层归一化技术，以促进信息流动、保留原始特征信息，并提高模型的训练稳定性和泛化能力。

在预训练策略方面，VideoPrism主要分为两个阶段：第一阶段是视频-文本对比训练，通过对比损失函数对视频编码器和文本编码器进行联合训练，学习语义视频嵌入表示；第二阶段则通过掩码视频建模捕捉更多动态信息，并采用随机Token混洗和全局-局部知识蒸馏两种优化方法进行性能优化。

VideoPrism作为一款通用视频模型，具有广泛的应用前景。

它可以在视频理解和分析、智能视频监控、视频检索和推荐、专业科学视频分析等领域进行精准的数据分析、归类和定位等操作。

这一模型的推出，为视频领域的研究和应用带来了新的突破和可能性。

原文和模型

【原文链接】 阅读原文 [ 1405字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # 视频生成 # Transformer # 卷积神经 # 应用前景 # 性能测试 # 视频模型

文章版权归作者所有，未经允许请勿转载。

Transformer能否推理引争议，DeepMind连夜更新论文开源数据集：Transformer真的很强

AI科技评论

1,835

阿里史上最大规模开源发布，超GPT-4o 、Llama-3.1！

AIGC开放社区

1,845

国产 Sora 的秘密，藏在这个清华系大模型团队中

极客公园

1,705

6700万参数比肩万亿巨兽GPT-4！微软MIT等联手破解Transformer推理密码

新智元

2,458

无需Attention的未来，RWKV-7能成为替代Transformer的那只黑天鹅吗？

硅星人Pro

868

开源、可商用，仅需0.5秒图片直接生成3D模型！

AIGC开放社区

2,465

暂无评论

暂无评论...

谷歌推出通用视频模型：能精准分类、定位、检索等

文章摘要

原文和模型

围观了几天萝卜快跑后，我们在成都叫车被拒了

AI 辅助公文写作到底行不行？新华妙笔说：行！｜AI鲜测

相关文章

暂无评论

热门网址

热门文章

谷歌推出通用视频模型：能精准分类、定位、检索等

文章摘要

原文和模型

围观了几天萝卜快跑后，我们在成都叫车被拒了

AI 辅助公文写作到底行不行？新华妙笔说：行！｜AI鲜测

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章