哪里要动点哪里！腾讯联合清华、港科大推出全新图生视频大模型

AIGC动态2年前 (2024)发布 ai-front

2,151 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★

文章摘要

文章介绍了一个新的图像生成视频模型 Follow-Your-Click，由腾讯混元、清华大学和香港科技大学联合推出。这个模型可以让静态的图像区域动起来，只需在照片中点击想要动的区域并加上简单的提示词，就能实现各种生动效果。通过实验发现，Follow-Your-Click能够精准控制画面的动态区域，例如控制火箭发射、汽车行驶，以及生成不同表情的人物。与其他视频生成模型相比，Follow-Your-Click具有更高的精准度和灵活性。

为了实现这一功能，Follow-Your-Click采用了图像语义分割工具Segment-Anything，将用户的点击操作转化为二进制区域Mask，并作为网络运行的条件之一。团队还引入了首帧掩模策略，提高了视频生成的质量，并处理了畸变和首帧重构的问题。为了增强模型的文字驱动能力，研究团队构建了WebVid-Motion数据集，强调人类情感、动作和常见物体的运动，提升了模型对动词的响应和识别能力。此外，团队还打造了一个运动增强模块，强化了模型对运动相关词语的响应能力。为了准确学习运动速度，提出了基于光流的运动幅度控制方法。

尽管Follow-Your-Click在实现图像局部动画方面取得了显著进展，但由于动作的复杂性和相关训练样本的稀缺，模型在生成大型复杂人体动作方面仍存在局限性。腾讯混元大模型团队已经支持了《人民日报》的原创视频《江山如此多娇》，展示了该模型的实际应用。文章指出，2024年的多模态领域发展迅速，展示了Follow-Your-Click在图像生成视频领域的潜力和前景。