Boximator：字节跳动提出可控视频合成技术

AIGC动态2年前 (2024)发布 admin

3,076 0 0

作者信息

【原文作者】 小麦AIGC
【作者简介】 为AIGC爱好者提供全球最有价值的内容，让每个人都能用好AI。更多内容请访问https://xiaomai.co
【微信号】 xiaomai-ai

文章摘要

【关键词】 视频技术、运动控制、Boximator、3D U-Net、自跟踪

字节跳动推出了一项名为Boximator的新技术，这是一种可控制视频中主体运动轨迹的技术。Boximator结合了框体和动画的概念，支持通过框选方式让图像中指定的对象主体按指定路径进行运动，无需任何文本提示。相较于其他工具如runway的运动笔刷，Boximator提供了更精细的控制力，包括实框和虚框两种引导方式。此外，还可以使用箭头绘制具体的运动轨迹，或者同时使用框和箭头对多个主体进行标注和控制。

官方将Boximator与热门工具pika1.0和runway gen-2进行了比较，结果显示使用Boximator生成的动态效果更丰富、更准确。然而，这也意味着用户需要投入更多的操作，可能不如AI自动工具那么用户友好。

技术上，Boximator采用了基于视频扩散的3D U-Net架构，通过迭代预测输入噪声视频中的噪声向量，逐步将纯高斯噪声转化为高质量视频帧。为了解决视频运动控制中同一组框体始终控制同一对象的挑战，Boximator采用了自跟踪技术，将问题简化为两个简单的任务：为每个对象生成具有正确颜色的边界框，以及在每一帧中将这些框与Boximator的约束对齐。自跟踪技术是Boximator成功实现精细运动控制的关键因素之一。

目前，Boximator的代码和模型尚未开源，但开发团队表示将在未来2-3个月内提供demo。如需评估具体效果，可以将图像和运动描述以邮件形式发送给开发者，他们会运行并返回视频结果。项目主页和论文链接已提供。