模型信息
【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 图像生成、视频模型、动态效果、精准控制、运动增强
文章介绍了一个新的图像生成视频模型 Follow-Your-Click,由腾讯混元、清华大学和香港科技大学联合推出。这个模型可以让静态的图像区域动起来,只需在照片中点击想要动的区域并加上简单的提示词,就能实现各种生动效果。通过实验发现,Follow-Your-Click能够精准控制画面的动态区域,例如控制火箭发射、汽车行驶,以及生成不同表情的人物。与其他视频生成模型相比,Follow-Your-Click具有更高的精准度和灵活性。
为了实现这一功能,Follow-Your-Click采用了图像语义分割工具Segment-Anything,将用户的点击操作转化为二进制区域Mask,并作为网络运行的条件之一。团队还引入了首帧掩模策略,提高了视频生成的质量,并处理了畸变和首帧重构的问题。为了增强模型的文字驱动能力,研究团队构建了WebVid-Motion数据集,强调人类情感、动作和常见物体的运动,提升了模型对动词的响应和识别能力。此外,团队还打造了一个运动增强模块,强化了模型对运动相关词语的响应能力。为了准确学习运动速度,提出了基于光流的运动幅度控制方法。
尽管Follow-Your-Click在实现图像局部动画方面取得了显著进展,但由于动作的复杂性和相关训练样本的稀缺,模型在生成大型复杂人体动作方面仍存在局限性。腾讯混元大模型团队已经支持了《人民日报》的原创视频《江山如此多娇》,展示了该模型的实际应用。文章指出,2024年的多模态领域发展迅速,展示了Follow-Your-Click在图像生成视频领域的潜力和前景。
原文信息
【原文链接】 阅读原文
【阅读预估】 1035 / 5分钟
【原文作者】 AI前线
【作者简介】 面向AI爱好者、开发者和科学家,提供大模型最新资讯、AI技术分享干货、一线业界实践案例,助你全面拥抱AIGC。