文章摘要
【关 键 词】 视频生成、Sora Turbo、文本驱动、AI技术、图像处理
OpenAI在技术直播中发布了Sora Turbo,这是一个视频生成模型,能够通过文本直接生成最多20秒1080P视频,是目前全球生成时长最高的视频模型之一。Sora Turbo支持文本+图片/视频的生成方式,提高了生成效果的可控性。用户无需专业视频软件即可为视频添加特效。Sora Turbo现已开放使用,ChatGPT Plus和Pro会员可免费使用。
为了提升用户体验,OpenAI开发了全新UI,并提供社区分享服务,用户可以分享自己生成的视频或借鉴他人的效果。艺术家Emi Kusano通过Sora制作了怀旧日式舞蹈风格视频,展现了Sora在人数、颜色复杂度、物理模拟和场景融合方面的良好效果。Sora的核心技术包括Patch应用、视频压缩网络、时空潜伏斑块处理和模型架构设计。Sora融合了扩散模型与Transformer架构,采用扩散式转换器方法,取代了传统的U-Net架构,提升了对输入图像与文本标签之间分布关系的捕捉能力。Sora还运用描述性合成描述符展开训练,模拟现实场景及规划未来行动。
OpenAI将DALL·E 3的重新字幕技术引入Sora体系,训练出高度描述性的字幕模型,为训练集中的所有视频创建文本字幕,提升文本保真度和视频质量。Sora通过GPT将用户提示转换为详细字幕信息,生成高质量长视频内容。Sora已启用全新域名https://sora.com/,用户可以制作各种视频。
原文和模型
【原文链接】 阅读原文 [ 1375字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...