作者信息
【原文作者】 AIGC开放社区
【作者简介】 专注AIGC领域的专业社区,关注微软OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
【微 信 号】 AIGCOPEN
文章摘要
【关 键 词】 AIGC、Boximator、视频模型、动作控制、字节跳动
Boximator 是字节跳动推出的一款创新性视频模型,它能够通过文本精准控制生成视频中人物或物体的动作。与Gen-2、Pink1.0等模型相比,Boximator在动作生成方面表现出色,如在下雨天大风场景中,能够精准地生成女生雨伞被吹走的动作。Boximator的案例赏析展示了其在不同场景下的动作生成能力,如3D男孩走动、男士拿出玫瑰花等,均优于其他模型。
Boximator模型通过“软框”和“硬框”两种约束方法实现对视频中物体、人物的动作控制。硬框允许用户精确定义目标对象的边界框,而软框则定义对象可能存在的区域,实现适度的随机性。控制模块结合框约束的编码与视频帧的视觉编码,指导视频的精准动作生成。训练策略分为自跟踪阶段和正常训练阶段,逐步过渡从硬框到软框的约束。
实验数据显示,Boximator在保持原模型视频质量的同时,具有强大的动作控制能力。在MSR-VTT数据集上,Boximator在视频质量和框与对象对齐精度方面均优于原模型。字节跳动的研究人员表示,该模型目前处于研发阶段,预计2-3个月内发布测试网站。
原文信息
【原文链接】 阅读原文
【原文字数】 1168
【阅读时长】 4分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...