字节视频生成新突破!Phantom搞定多人物/主体一致性

AIGC动态2天前发布 QbitAI
111 0 0
字节视频生成新突破!Phantom搞定多人物/主体一致性

 

文章摘要


【关 键 词】 主体一致视频生成身份保持多主体交互DiT框架

字节智能创作团队推出的Phantom视频生成模型,在解决多主体一致性难题上取得突破性进展。该模型通过精准捕捉人物、物品、动物及虚拟角色的关键特征,实现多主体完整性与动态场景的自然融合。其核心能力体现在三个方面:身份保持生成可通过面部参考图像锁定主体特征,结合文本提示生成多样化动作视频,面部轮廓、五官细节及表情神态的还原度达到高度一致性;单参考主体生成仅需一张图片即可还原毛发质感、服饰纹理等细节,例如将静态小狗照片转化为动态奔跑场景;多参考主体生成支持上传多张图像创建复杂交互,如群体对话、产品动态展示及虚拟试穿应用,为电商营销开辟了可视化试穿的新路径

Phantom的技术架构基于改进的DiT框架,提出主体到视频生成(S2V)方案。通过平衡文本指令与图像提示的双重对齐,该模型既保留文本生成视频的创造性,又突破传统图像生成视频的内容局限。数据构建方面,团队创新性地采用交叉配对策略,通过匹配不同视频中的主体元素构建文本-图片-视频三元组数据,有效缓解输入图像在生成过程中被简单复制的弊端。模型继承MMDiT架构,通过独立视觉编码器处理参考图像,将特征分别与视频、文本模态拼接,在不破坏原有结构的前提下实现多模态协同。

评估数据显示,Phantom在视频质量、文本响应和主体一致性等维度均超越同类商业化工具,其中人脸ID一致性指标表现尤为突出。实际应用已覆盖影视创作、产品营销、虚拟试装等领域,例如通过服装与人物图像的组合生成动态试穿效果,或将多人物照片转化为自然对话场景。研究团队同步公开了论文、项目网站及开源代码,相关技术通过火山引擎对外提供行业解决方案。

原文和模型


【原文链接】 阅读原文 [ 1553字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-r1
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...