Boximator:字节跳动提出可控视频合成技术

AIGC动态9个月前发布 admin
1,551 0 0

作者信息


【原文作者】 小麦AIGC
【作者简介】 为AIGC爱好者提供全球最有价值的内容,让每个人都能用好AI。更多内容请访问https://xiaomai.co
【微 信 号】 xiaomai-ai

Boximator:字节跳动提出可控视频合成技术
 

文章摘要


【关 键 词】 视频技术运动控制Boximator3D U-Net自跟踪

字节跳动推出了一项名为Boximator的新技术,这是一种可控制视频中主体运动轨迹的技术。Boximator结合了框体和动画的概念,支持通过框选方式让图像中指定的对象主体按指定路径进行运动,无需任何文本提示。相较于其他工具如runway的运动笔刷,Boximator提供了更精细的控制力,包括实框和虚框两种引导方式。此外,还可以使用箭头绘制具体的运动轨迹,或者同时使用框和箭头对多个主体进行标注和控制。

官方将Boximator与热门工具pika1.0和runway gen-2进行了比较,结果显示使用Boximator生成的动态效果更丰富、更准确。然而,这也意味着用户需要投入更多的操作,可能不如AI自动工具那么用户友好。

技术上,Boximator采用了基于视频扩散的3D U-Net架构,通过迭代预测输入噪声视频中的噪声向量,逐步将纯高斯噪声转化为高质量视频帧。为了解决视频运动控制中同一组框体始终控制同一对象的挑战,Boximator采用了自跟踪技术,将问题简化为两个简单的任务:为每个对象生成具有正确颜色的边界框,以及在每一帧中将这些框与Boximator的约束对齐。自跟踪技术是Boximator成功实现精细运动控制的关键因素之一。

目前,Boximator的代码和模型尚未开源,但开发团队表示将在未来2-3个月内提供demo。如需评估具体效果,可以将图像和运动描述以邮件形式发送给开发者,他们会运行并返回视频结果。项目主页和论文链接已提供。

原文信息


【原文链接】 阅读原文
【原文字数】 763
【阅读时长】 3分钟

© 版权声明

相关文章

暂无评论

暂无评论...