文章摘要
Runway公司以其广受欢迎的视频生成工具而闻名,最近发布了最新版本的Runway Gen-3。Gen-3 Alpha是Runway在全新基础设施上训练出的模型家族的首位成员,与前代Gen-2相比,Gen-3在保真度、一致性和运动表现方面有重大改进,朝着构建通用世界模型迈出了坚实一步。
Gen-3 Alpha由描述精细、时间密集的描述词训练而成,能够实现富有想象力的过渡效果,并为场景元素生成精确的关键帧。该模型擅长生成具有各种动作、手势及情绪的逼真人类形象,开拓出前所未有的叙事方式与空间。训练过程由研究科学家、工程师及艺术家共同组成的跨学科团队完成,旨在诠释各种视觉风格及镜头语言。
Gen-3模型生成的视频,特别是包含大画幅人脸特写的视频,拥有极为逼真的画面效果。这引发了AI艺术社区的广泛讨论,许多人将其与OpenAI尚未发布的Sora进行比较。一些Reddit用户表示,Gen-3的视频效果比Sora更真实,甚至有用户认为这些画面看起来像是真实拍摄的。AI电影制作人PZF称这些片段具有电影质感,画面流畅、自然且可信。
除了Gen-3视频生成器,Runway还推出了一套微调工具,提供更灵活的图像与相机控制选项。Gen-3 Alpha将支持Runway的文本生视频、图像生视频以及文本生图像工具,现有控制模式(如运动画笔、高级相机控制及导演模式)以及即将推出的更多工具,以前所未有的精细方式控制结构、风格与运动形态。Runway宣称,Gen-3是其实现建立“通用世界模型”目标的重要一步,使得AI系统能够构建环境的内部表现,并模拟未来事件。
虽然Runway尚未透露Gen-3的具体发布时间,但公司联合创始人兼CTO Anastasis Germanidis表示,Gen-3 Alpha将很快在Runway产品内现身,包括现有模态以及一些新模态。
Runway的AI探索始于2021年,与慕尼黑大学合作开发出Stable Diffusion的首个版本。自那时起,Runway一直是AI视频生成领域的重要参与者,与Pika Labs等竞争对手并驾齐驱。然而,随着OpenAI宣布推出Sora,市场格局发生变化。好莱坞演员阿什顿·库彻表示,像Sora这样的工具可能会颠覆影视剧的创作逻辑,引发轰动。
与此同时,新的竞争对手如快手的Kling和Luma AI的Dream Machine也陆续崭露头角。Kling能够以每秒30帧的速度生成最长2分钟的1080p分辨率视频,较现有模型有巨大改进。Dream Machine则是一套可供免费使用的平台,能够将书面文本转换为动态视频,生成结果在质量、连续性及提示词遵循效果方面全面超越Runway Gen-2。
在开源领域,Stable Video Diffusion虽然生成效果不算出色,但其开放属性为模型的后续改进和发展提供了坚实基础。Vidu是由北京生数科技和清华大学开发的另一款AI视频生成器,采用专有视觉转换模型架构,只需一次单击即可生成16秒长的1080p分辨率视频。Pika Labs由于尚未发布重大更新,目前的生成效果基本与Runway Gen-2持平。
原文和模型
【原文链接】 阅读原文 [ 2734字 | 11分钟 ]
【原文作者】 AI前线
【摘要模型】 gpt-4o
【摘要评分】 ★★★★★