文本+图片生成高保真视频，阿里推出视频模型AtomoVideo

AIGC动态2年前 (2024)发布 AIGCOPEN

1,265 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

文章摘要

AtomoVideo是由阿里巴巴集团的技术团队推出的一款文本+图片生成高保真视频模型。用户只需提供高清图片和简单文本提示，即可生成保留细节的高清视频。该模型在动作连贯性、图片一致性、时序一致性和运动强度等方面超过了多个开源和商业模型。AtomoVideo的技术创新包括融合了多粒度图片注入和时间建模，利用VAE编码器处理输入图片，结合高斯噪声作为UNet的输入，以及利用CLIP编码器对输入图片进行高层语义表征。在时间维度上，模型在每个空间卷积和注意力层后增加了一维时间卷积和时间注意力模块，赋予了模型学习时序动态模式的能力。除了图片生成视频，AtomoVideo还可用于视频扩展预测、自动修复受损帧或插值缺失帧等任务。在训练策略上，模型使用了零终端信噪比和v-预测等策略来提高生成视频的稳定性和质量。实验结果表明，AtomoVideo在多个评估维度上表现卓越，尤其在保持较大运动强度的同时实现了优异的时间稳定性。

原文信息

【原文链接】 阅读原文
【阅读预估】 1009 / 5分钟
【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！