字节跳动推出颠覆性文生视频模型，可自由控制动作！

AIGC动态1年前 (2024)发布 AIGCOPEN

2,472 0 0

作者信息

【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区，关注微软OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！
【微信号】 AIGCOPEN

文章摘要

【关键词】 AIGC、Boximator、视频模型、动作控制、字节跳动

Boximator 是字节跳动推出的一款创新性视频模型，它能够通过文本精准控制生成视频中人物或物体的动作。与Gen-2、Pink1.0等模型相比，Boximator在动作生成方面表现出色，如在下雨天大风场景中，能够精准地生成女生雨伞被吹走的动作。Boximator的案例赏析展示了其在不同场景下的动作生成能力，如3D男孩走动、男士拿出玫瑰花等，均优于其他模型。

Boximator模型通过“软框”和“硬框”两种约束方法实现对视频中物体、人物的动作控制。硬框允许用户精确定义目标对象的边界框，而软框则定义对象可能存在的区域，实现适度的随机性。控制模块结合框约束的编码与视频帧的视觉编码，指导视频的精准动作生成。训练策略分为自跟踪阶段和正常训练阶段，逐步过渡从硬框到软框的约束。

实验数据显示，Boximator在保持原模型视频质量的同时，具有强大的动作控制能力。在MSR-VTT数据集上，Boximator在视频质量和框与对象对齐精度方面均优于原模型。字节跳动的研究人员表示，该模型目前处于研发阶段，预计2-3个月内发布测试网站。