a16解读AI数字人：技术基本Ready、应用层即将爆发，下一个十亿级赛道

1,019 0 0

文章摘要

近年来，人工智能技术在生成逼真图片、视频和声音方面取得了显著进展，逐渐通过了视觉和听觉的图灵测试。然而，2025年最令人期待的突破之一将是AI数字人（AI Avatar）的出现。AI数字人将面部与声音结合，创造出会说话的角色，这一技术不仅限于简单的口型同步，还要求面部表情和肢体语言的协调一致。AI数字人正逐步走出“恐怖谷”，并开始广泛应用于内容创作、广告营销、企业培训等多个领域。

字节跳动推出的OmniHuman-1模型和Hedra制作的Character-3模型是当前AI数字人技术的代表。这些模型能够通过一张照片和一段音频生成具有动态背景、全身动作和口型同步的逼真视频。OmniHuman-1模型在全球AI圈引起了广泛关注，而Hedra的Character-3模型在大多数应用场景中表现最佳。这些技术的进步不仅体现在生成质量上，还体现在模型的灵活性和功能性上，使得AI数字人能够在复杂的运动场景中实现精确的唇形同步。

AI数字人的应用场景非常广泛，涵盖了消费者、中小企业和大型企业等多个领域。在消费者领域，AI数字人能够通过一张图片和一段音频生成动画角色，极大地释放了创造力。Hedra平台允许用户生成生动且能说话的虚拟角色，而Sync工具则可以实现唇形同步，使角色面部表情与音频内容精准匹配。在中小企业领域，AI数字人已经成为广告营销的重要工具。Creatify和Arcad等公司提供了便捷的解决方案，企业无需雇佣演员和组建制作团队，即可利用高度逼真的AI角色推广产品。在大型企业领域，AI数字人不仅用于营销，还应用于员工培训、全球拓展和高管形象塑造等方面。Synthesia等AI工具能够自动化培训视频的制作，提高内容制作效率和规模化能力。

尽管AI数字人技术取得了显著进展，但仍面临诸多挑战。面部表情的连贯性、声音的真实性、唇形同步的精确度、身体动作的自然性以及背景环境的协调性都是当前技术需要解决的问题。此外，AI数字人还需要具备“思考”能力，能够记住与用户的历史对话，并展现出独特的个性特征。实时流传输技术也是未来发展的关键，Agora等公司正在努力解决这一问题，但要让所有模型协同工作并最大限度地降低延迟，仍然面临挑战。

未来，AI数字人技术有望在角色一致性、面部动作、身体动作、与现实世界互动以及实时应用等方面取得进一步突破。随着底层模型技术水平的显著提升，AI数字人应用层将迎来快速发展的机遇，预计该领域将孕育出多个价值数十亿美元的公司。这些公司将在不同的应用场景和目标客户中进行细分，提供更加个性化和高效的服务。