【AI视频工具】谷歌的VideoPoet，基于大型语言模型（LLM），零样本生成视频，值得期待

AIGC动态2年前 (2024)发布 admin

2,722 0 0

作者信息

【原文作者】 AIProall
【作者简介】 小冰数字人一级代理三万人AI社群初创合伙人 AI行业应用解决方案、商业落地应用案例
【微信号】 AichatGPTone

文章摘要

文章主要介绍了谷歌的AI视频生成模型VideoPoet的最新研究成果。VideoPoet是一个大型语言模型（LLM），用于零样本视频生成，能够执行多种视频生成任务，包括文本到视频、图像到视频、视频风格化、视频内部和外部填充以及视频到音频的转换。该模型利用了语言模型的能力，集成了多种视频生成能力于一个模型中，而非依赖于针对每个任务分别训练的组件。此外，模型还具备控制长视频、互动式视频编辑和图像到视频控制等功能。评估结果显示，VideoPoet在生成准确遵循文本提示的有趣动作方面表现优异。

文章还对比了VideoPoet和其他视频生成方法，如W.A.L.T.。虽然两者都旨在生成高质量的视频内容，但它们的架构、训练策略、应用场景和生成质量等方面有所不同。VideoPoet采用了大型语言模型作为其核心架构，而W.A.L.T.则使用了Transformer架构。VideoPoet遵循LLM的训练协议，包括预训练和任务特定适应两个阶段，而W.A.L.T.则通过联合压缩图像和视频到统一的潜在空间来训练和生成跨模态数据。

最后，文章展示了VideoPoet的一些产品效果，如摩托车手在赛道上、两只泰迪熊手牵着手走在下雨的第五大道上、一个骷髅喝一杯苏打水以及一人称视角穿过树林接近美丽的大木屋等场景。