腾讯混元最新图生视频模型！想动哪里点哪里，诸葛青睁眼原来长这样 | 开源

AIGC动态2年前 (2024)发布 QbitAI

2,021 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

文章摘要

这篇文章介绍了腾讯混元、清华大学和香港科技大学联合推出的新图像到视频生成模型Follow-Your-Click。这个模型可以通过点击图片中的特定区域并输入简短提示词，让静态图片中的区域动起来，实现一键转换成视频的效果。研究团队通过整合图像语义分割工具Segment-Anything和首帧掩模策略，提高了模型对图像动态部分的控制能力。他们还构建了WebVid-Motion数据集，用于提升模型对动词的响应和识别能力。此外，引入了运动增强模块和基于光流的运动幅度控制，以提高模型对运动速度的准确学习。这些新方法的组合使得Follow-Your-Click大大提升了可控图像到视频的效率和可控性。研究团队还在探索多模态技术，并支持了《人民日报》的原创视频《江山如此多娇》。他们的项目主页链接为https://follow-your-click.github.io/，论文链接为https://arxiv.org/pdf/2403.08268.pdf，GitHub链接为https://github.com/mayuelala/FollowYourClick。整体而言，这个新模型为用户提供了简单的方式来实现图像局部动画，展示了在图像到视频生成领域的创新和进步。