长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman

文章摘要
【关 键 词】 数字人模型、长视频生成、商用应用、技术难题、字节团队
随着内容创作智能化需求增长,长时长、高质量数字人视频生成成为行业痛点。字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型 InfinityHuman,开启 AI 数字人实用化新征程。
InfinityHuman 只需一张人物图像与对应音频素材,就能自动生成连贯自然的高分辨率长视频,实现专业级呈现,如让电影人物复活成动态数字人。该模型创造性解决了长期动画中的两大核心难题:通过 “姿态引导优化” 技术解决身份漂移难题,确保数字人长时间视频中面部特征等的一致性;精准捕捉并还原细节,解决细节失真难题,让手势动作自然、情绪表达真实。
从项目主页案例来看,InfinityHuman 已实现多场景商用级应用,包括电商带货、企业培训、自媒体创作等,且对中文语音支持效果出色。
InfinityHuman 采用 “由粗到细” 策略,包含低分辨率音视频生成模块、姿态引导细化模块和手部特定奖励反馈学习。实验结果表明,它在音频驱动全身说话视频生成任务中表现优异,在视觉真实感和时序连贯性指标上优于主流基线方法,解决了长时生成中的外观漂移问题,提升了手部关键点准确性。消融实验验证了核心模块的有效性。
字节跳动商业化 GenAI 的 VIVID Avatar 团队深耕音视频数字人技术,在语音合成和视频生成方向持续深耕,形成完整技术链路,构建了覆盖长视频、3D 肖像、实时驱动的技术矩阵。团队已开源多项核心技术,并将 InfinityHuman 部署至商业化即创平台,为多领域提供低成本、高质量的数字人解决方案。
原文和模型
【原文链接】 阅读原文 [ 1664字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★☆