文章摘要
【关 键 词】 AI视频生成、开源模型、StreamingT2V、视频增强、自回归技术
近日,Picsart AI Research 团队联合发布了一款名为 StreamingT2V 的 AI 视频生成模型,该模型能够生成长达1200帧、时长为2分钟的视频,这在AI视频生成领域是一个重大突破。StreamingT2V 不仅在视频长度上超越了之前的模型,如 Sora、Pika、Runway 和 Stable Video Diffusion(SVD),而且它还是一个免费开源的项目,可以与 SVD 和 animatediff 等其他模型无缝兼容,进一步推动了开源生态的发展。
StreamingT2V 的发布意味着用户现在可以通过 GitHub 访问其开源代码,并在 huggingface 上进行免费试用。尽管目前服务器可能因为高负载而导致访问困难,但这并没有阻止用户对其进行测试。测试界面允许用户输入文本和图片两种提示,以生成视频。尽管生成的视频效果可能因用户需求的复杂性而有所不同,但已有一些成功案例展示了其潜力。
StreamingT2V 的模型架构采用了先进的自回归技术,确保了视频的时间一致性和与描述性文本的紧密对齐,同时保持了高帧级图像质量。它通过三个关键组件实现了这一点:条件注意力模块(CAM)、外观保留模块(APM)和一种随机混合方法。CAM 作为短期记忆块,通过注意机制实现一致的块过渡;APM 作为长期记忆块,从第一个视频块中提取高级场景和对象特征,以防止模型忘记初始场景;随机混合方法则能够对无限长的视频自动回归应用视频增强器,而不会出现块之间的不一致。
此外,StreamingT2V 还包括一个自动回归视频增强功能,它利用高分辨率文本到视频模型来提高视频结果的质量和分辨率。这一过程通过在连续块之间使用共享噪声,并利用随机混合方法来保持视频的一致性。
在对比测试中,StreamingT2V 与其他模型相比,在保持视频的时间一致性和避免运动停滞方面表现出色。这表明 StreamingT2V 在生成长视频方面具有明显优势,这对于电影或游戏等应用场景来说是一个巨大的进步。此外,长视频生成技术还可以用于创建虚拟世界,为人形机器人和智能体提供训练环境,甚至可能成为人类未来的生存空间。
原文和模型
【原文链接】 阅读原文 [ 2211字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★