AI封神了!无剪辑一次直出60秒《猫和老鼠》片段,全网百万人围观

AI封神了!无剪辑一次直出60秒《猫和老鼠》片段,全网百万人围观

 

文章摘要


【关 键 词】 AI动画技术生成视频

加州大学伯克利分校、斯坦福大学、英伟达等机构联合制作的《猫和老鼠》AI短片引发了广泛关注。这些短片通过AI技术生成,展现了复杂的故事和动态动作,所有视频均由模型一次性直接生成,未进行任何二次编辑或后期处理。研究团队利用TTT(Test-time Training,测试时训练)层增强预训练Transformer,并通过微调生成时间和空间上连贯性强的短片。TTT层是专门的RNN层,每个隐藏状态代表一个机器学习模型,并通过梯度下降进行更新。研究团队还开发了“片上张量并行”算法,显著降低了数据传输成本,确保大量隐藏状态在共享内存内有效访问。

此前视频生成技术的根本挑战在于长上下文问题,因为Transformers中自注意力层的成本随上下文长度呈二次曲线增加。为应对这一挑战,研究团队将RNN层作为自注意力的有效替代方法,因为RNN层的成本随上下文长度呈线性增长。然而,传统RNN层生成的视频复杂度较低,因为其隐藏状态表现力较差。研究团队尝试使用另一种RNN层,其隐藏状态本身也可以是神经网络,具体使用两层MLP,隐藏单元比线性注意力变体中的线性隐藏状态多2倍,非线性也更丰富。这些新层被称为测试时间训练层(TTT)。

研究团队策划了一个基于约7小时《猫和老鼠》动画片的文本到视频数据集,并附有人类注释的故事板。他们有意将范围限制在这一特定领域,以便快速进行研究迭代。作为概念验证,该数据集强调复杂、多场景和具有动态运动的长篇故事,此前的模型在这些方面仍需取得进展;而对视觉和物理逼真度的强调较少,因为此前的模型在这些方面已经取得了显著进展。研究团队认为,尽管本文是面向这一特定领域的长上下文能力改进,但也会转移到通用视频生成上。

在测评中,与Mamba 2、Gated DeltaNet和滑动窗口注意力层等强大的基线相比,TTT层生成的视频更连贯,能讲述复杂的动态故事。然而,TTT-MLP在生成内容中也存在一些明显的瑕疵,如时间一致性、运动自然性和美学方面的问题。尽管如此,这项研究仍博得了评论区一众网友的惊呼与赞许,展示了AI在视频生成领域的巨大潜力。

原文和模型


【原文链接】 阅读原文 [ 2219字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...