字节跳动推出颠覆性文生视频模型,可自由控制动作!

AIGC动态4个月前发布 AIGCOPEN
510 0 0

作者信息


【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
【微 信 号】 AIGCOPEN

字节跳动推出颠覆性文生视频模型,可自由控制动作!
 

文章摘要


【关 键 词】 AIGCBoximator视频模型动作控制字节跳动

Boximator字节跳动推出的一款创新性视频模型,它能够通过文本精准控制生成视频中人物或物体的动作。与Gen-2、Pink1.0等模型相比,Boximator在动作生成方面表现出色,如在下雨天大风场景中,能够精准地生成女生雨伞被吹走的动作。Boximator的案例赏析展示了其在不同场景下的动作生成能力,如3D男孩走动、男士拿出玫瑰花等,均优于其他模型。

Boximator模型通过“软框”和“硬框”两种约束方法实现对视频中物体、人物的动作控制。硬框允许用户精确定义目标对象的边界框,而软框则定义对象可能存在的区域,实现适度的随机性。控制模块结合框约束的编码与视频帧的视觉编码,指导视频的精准动作生成。训练策略分为自跟踪阶段和正常训练阶段,逐步过渡从硬框到软框的约束。

实验数据显示,Boximator在保持原模型视频质量的同时,具有强大的动作控制能力。在MSR-VTT数据集上,Boximator在视频质量和框与对象对齐精度方面均优于原模型。字节跳动的研究人员表示,该模型目前处于研发阶段,预计2-3个月内发布测试网站。

原文信息


【原文链接】 阅读原文
【原文字数】 1168
【阅读时长】 4分钟

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...