剑指Sora！120秒超长AI视频模型免费开玩

AIGC动态1年前 (2024)发布 AIera

1,818 0 0

文章摘要

【关键词】 AI视频生成、开源模型、StreamingT2V、视频增强、自回归技术

近日，Picsart AI Research 团队联合发布了一款名为 StreamingT2V 的 AI 视频生成模型，该模型能够生成长达1200帧、时长为2分钟的视频，这在AI视频生成领域是一个重大突破。StreamingT2V 不仅在视频长度上超越了之前的模型，如 Sora、Pika、Runway 和 Stable Video Diffusion（SVD），而且它还是一个免费开源的项目，可以与 SVD 和 animatediff 等其他模型无缝兼容，进一步推动了开源生态的发展。

StreamingT2V 的发布意味着用户现在可以通过 GitHub 访问其开源代码，并在 huggingface 上进行免费试用。尽管目前服务器可能因为高负载而导致访问困难，但这并没有阻止用户对其进行测试。测试界面允许用户输入文本和图片两种提示，以生成视频。尽管生成的视频效果可能因用户需求的复杂性而有所不同，但已有一些成功案例展示了其潜力。

StreamingT2V 的模型架构采用了先进的自回归技术，确保了视频的时间一致性和与描述性文本的紧密对齐，同时保持了高帧级图像质量。它通过三个关键组件实现了这一点：条件注意力模块（CAM）、外观保留模块（APM）和一种随机混合方法。CAM 作为短期记忆块，通过注意机制实现一致的块过渡；APM 作为长期记忆块，从第一个视频块中提取高级场景和对象特征，以防止模型忘记初始场景；随机混合方法则能够对无限长的视频自动回归应用视频增强器，而不会出现块之间的不一致。

此外，StreamingT2V 还包括一个自动回归视频增强功能，它利用高分辨率文本到视频模型来提高视频结果的质量和分辨率。这一过程通过在连续块之间使用共享噪声，并利用随机混合方法来保持视频的一致性。

在对比测试中，StreamingT2V 与其他模型相比，在保持视频的时间一致性和避免运动停滞方面表现出色。这表明 StreamingT2V 在生成长视频方面具有明显优势，这对于电影或游戏等应用场景来说是一个巨大的进步。此外，长视频生成技术还可以用于创建虚拟世界，为人形机器人和智能体提供训练环境，甚至可能成为人类未来的生存空间。