实测字节全新豆包·视频生成模型：Sora 画的饼被实现了……

AIGC动态2年前 (2024)发布 aitechtalk

4,503 0 0

文章摘要

在过去三个月中，中国AI视频技术取得了显著进步，其中字节跳动公司在AI视频生成模型领域的表现尤为突出。字节跳动的Make Pixels Dance项目展示了解决长视频中角色一致性问题的能力，引起了国际关注。在9月24日的火山引擎AI创新巡展深圳站上，字节跳动发布了两个新的视频生成模型：PixelDance和Seaweed，展示了其在视频生成领域的领先地位。

在AI视频生成领域，主要存在两个问题：语义理解和一致性。语义理解差会导致生成的视频与预期不符，而一致性差则会导致画面内容在镜头切换或高速运动时变形。为了测试这些模型，进行了空间理解测试和特效电影测试。

在空间理解测试中，豆包·视频生成模型表现出色，能够准确理解并生成符合提示词的视频内容，包括胶片质感、下雨天、小巷场景和橘猫的动作。相比之下，其他模型如可灵、Minimax和国际选手LUMA和Runway在某些方面存在不足。

特效电影测试中，豆包·视频生成模型再次展现了其卓越的性能，成功地生成了复杂的场景和两次镜头变化，展现了高度的场景一致性。其他模型在生成复杂场景和特效方面存在不足。

豆包·视频生成模型在动画教育领域也显示出巨大潜力，能够生成多角色动作控制的视频，解决了AI视频进行多角色动作控制的难题。此外，该模型还能够生成连续画面，如从身上掏钥匙开车的场景，这是以往AI难以实现的。

与Sora相比，豆包·视频生成模型在角色一致性和语义理解方面表现更好。Sora在生成视频时存在角色特征和空间位置理解的问题，而豆包·视频生成模型则能够更好地理解和执行用户的指令。

总结来说，字节跳动在AI视频技术领域的研究和开发取得了显著成果，其豆包·视频生成模型在多个测试中展现了卓越的性能，解决了AI视频生成中的多个难题，预示着在影视创作和动画教育等领域的应用前景广阔。