长视频AI数字人来了！字节×浙大推出商用级音频驱动数字人模型InfinityHuman

AIGC动态3周前发布 almosthuman2014

720 0 0

长视频AI数字人来了！字节×浙大推出商用级音频驱动数字人模型InfinityHuman

文章摘要

随着内容创作智能化需求增长，长时长、高质量数字人视频生成成为行业痛点。字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 InfinityHuman，开启 AI 数字人实用化新征程。

InfinityHuman 只需一张人物图像与对应音频素材，就能自动生成连贯自然的高分辨率长视频，实现专业级呈现，如让电影人物复活成动态数字人。该模型创造性解决了长期动画中的两大核心难题：通过 “姿态引导优化” 技术解决身份漂移难题，确保数字人长时间视频中面部特征等的一致性；精准捕捉并还原细节，解决细节失真难题，让手势动作自然、情绪表达真实。

从项目主页案例来看，InfinityHuman 已实现多场景商用级应用，包括电商带货、企业培训、自媒体创作等，且对中文语音支持效果出色。

InfinityHuman 采用 “由粗到细” 策略，包含低分辨率音视频生成模块、姿态引导细化模块和手部特定奖励反馈学习。实验结果表明，它在音频驱动全身说话视频生成任务中表现优异，在视觉真实感和时序连贯性指标上优于主流基线方法，解决了长时生成中的外观漂移问题，提升了手部关键点准确性。消融实验验证了核心模块的有效性。

字节跳动商业化 GenAI 的 VIVID Avatar 团队深耕音视频数字人技术，在语音合成和视频生成方向持续深耕，形成完整技术链路，构建了覆盖长视频、3D 肖像、实时驱动的技术矩阵。团队已开源多项核心技术，并将 InfinityHuman 部署至商业化即创平台，为多领域提供低成本、高质量的数字人解决方案。