谷歌版Sora来了，4K高清暴击OpenAI！视频生图新卷王，更理解物理世界

2,527 0 0

文章摘要

谷歌近期发布了Veo 2，一个先进的视频生成模型，其在理解现实世界物理和运动细节方面超越了Sora。Veo 2能够理解电影摄影语言，包括镜头类型和效果，并且支持高达4K的分辨率。此外，谷歌还推出了Imagen 3图像生成模型和Whisk工具，后者允许用户通过图像而非文本作为提示来生成图像。

Veo 2在生成视频时展现出了对物理规律和人类动作表情的深刻理解，提供了增强的真实感和保真度，领先的运动能力，以及更强大的相机控制选项。它能够根据简单的文字描述生成精美的视频，并且能够像电影摄影师一样与用户交流，理解并执行技术参数和电影术语。Veo 2在Meta的Movie Gen Bench上的表现与Kling、Minimax、Sora等顶尖视频模型相媲美。

Imagen 3在图像生成方面带来了革命性的提升，图像整体质感更加明亮，构图更精准。它能够准确还原从照片级写实到印象派绘画，从抽象艺术到动漫风格的艺术风格，并能精准执行用户的提示词指令，呈现出更细腻的细节和更丰富的纹理效果。

Whisk是一个实验性的AI项目，它允许用户通过上传图片来定义主体、场景和风格，然后重新混合这些元素以创造独特的作品。Whisk利用Gemini模型自动为上传的图片生成详细的文本，然后将这些文本输入到Imagen 3中处理，从而实现图像的生成。

尽管Veo 2在生成逼真视频方面取得了显著进步，但在创建复杂运动场景时仍存在一致性问题。谷歌为Veo 2加入了SynthID水印，以帮助识别AI生成的内容。Veo 2预计将进军YouTube Shorts等平台，为内容创作者提供新的可能性。