腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源

AIGC动态9个月前发布 QbitAI
789 0 0

模型信息


【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

腾讯混元最新图生视频模型!想动哪里点哪里,诸葛青睁眼原来长这样 | 开源
 

文章摘要


【关 键 词】 图像视频生成模型控制创新

这篇文章介绍了腾讯混元、清华大学和香港科技大学联合推出的新图像视频生成模型Follow-Your-Click。这个模型可以通过点击图片中的特定区域并输入简短提示词,让静态图片中的区域动起来,实现一键转换成视频的效果。研究团队通过整合图像语义分割工具Segment-Anything和首帧掩模策略,提高了模型对图像动态部分的控制能力。他们还构建了WebVid-Motion数据集,用于提升模型对动词的响应和识别能力。此外,引入了运动增强模块和基于光流的运动幅度控制,以提高模型对运动速度的准确学习。这些新方法的组合使得Follow-Your-Click大大提升了可控图像到视频的效率和可控性。研究团队还在探索多模态技术,并支持了《人民日报》的原创视频《江山如此多娇》。他们的项目主页链接为https://follow-your-click.github.io/,论文链接为https://arxiv.org/pdf/2403.08268.pdf,GitHub链接为https://github.com/mayuelala/FollowYourClick。整体而言,这个新模型为用户提供了简单的方式来实现图像局部动画,展示了在图像到视频生成领域的创新和进步。

原文信息


【原文链接】 阅读原文
【阅读预估】 1195 / 5分钟
【原文作者】 量子位
【作者简介】 追踪人工智能新趋势,关注科技行业新突破

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...