字节视频生成新突破！Phantom搞定多人物/主体一致性

1,264 0 0

文章摘要

字节智能创作团队推出的Phantom视频生成模型，在解决多主体一致性难题上取得突破性进展。该模型通过精准捕捉人物、物品、动物及虚拟角色的关键特征，实现多主体完整性与动态场景的自然融合。其核心能力体现在三个方面：身份保持生成可通过面部参考图像锁定主体特征，结合文本提示生成多样化动作视频，面部轮廓、五官细节及表情神态的还原度达到高度一致性；单参考主体生成仅需一张图片即可还原毛发质感、服饰纹理等细节，例如将静态小狗照片转化为动态奔跑场景；多参考主体生成支持上传多张图像创建复杂交互，如群体对话、产品动态展示及虚拟试穿应用，为电商营销开辟了可视化试穿的新路径。

Phantom的技术架构基于改进的DiT框架，提出主体到视频生成（S2V）方案。通过平衡文本指令与图像提示的双重对齐，该模型既保留文本生成视频的创造性，又突破传统图像生成视频的内容局限。数据构建方面，团队创新性地采用交叉配对策略，通过匹配不同视频中的主体元素构建文本-图片-视频三元组数据，有效缓解输入图像在生成过程中被简单复制的弊端。模型继承MMDiT架构，通过独立视觉编码器处理参考图像，将特征分别与视频、文本模态拼接，在不破坏原有结构的前提下实现多模态协同。

评估数据显示，Phantom在视频质量、文本响应和主体一致性等维度均超越同类商业化工具，其中人脸ID一致性指标表现尤为突出。实际应用已覆盖影视创作、产品营销、虚拟试装等领域，例如通过服装与人物图像的组合生成动态试穿效果，或将多人物照片转化为自然对话场景。研究团队同步公开了论文、项目网站及开源代码，相关技术通过火山引擎对外提供行业解决方案。