AI 生成人物视频翻车？商汤推出可控人物视频生成模型 Vimi

AIGC动态1年前 (2024)发布 geekpark

2,483 0 0

文章摘要

商汤科技近期推出了一款名为Vimi的可控人物AI视频生成模型，该模型在视频生成领域具有创新性，特别是在模仿人物微表情方面表现出色。Vimi模型由商汤数字文娱团队开发，该公司自2016年以来一直致力于AI处理人物表情技术，成为亚洲最大的特效引擎提供商之一。Vimi模型的研发始于去年，专注于提高视频生成中的“可控性”，特别是在人物表情的精准控制上。

与市面上其他模型相比，Vimi模型在人物表情的生成上更为精细，能够根据输入的图片和动作指令，精确控制人物的脸部和上半身动作。商汤科技通过多年的面部跟踪技术积累，实现了对人物表情中牙齿、耳朵、眼球和睫毛等细节的精准跟踪，从而在参数化上达到高度精准。Vimi模型的训练并未使用特殊数据，而是采用了公开数据库，但其底层架构与AnimateAnyone等其他模型不同，通过全面理解和抽象人的动作和表情，将动作信息与模型对图像和视频信息的特征理解相融合，从而在空间和时间上保持视频的整体性。

Vimi模型在光影一致性控制方面表现出色，能够生成合理的头发抖动、模拟镜头角度变化等效果，这些原本需要复杂3D建模和光效渲染才能实现的效果，现在通过Vimi模型可以更自然地生成。此外，Vimi模型在人物生成效果的稳定性上也有显著提升，尤其是在长视频场景下，能够保持人物脸部的可控性，目前已能实现一分钟以上的稳定视频生成。

商汤科技认为，可控性是AI视频生成技术走向应用的关键，Vimi模型正是针对用户需求开发的人物视频生成大模型。它可以让动画创作者使用熟悉的骨架生成动作，同时也让更多只有想法的视频创作者通过录制视频实现良好的生成效果。Vimi模型仍在快速迭代升级中，未来将进一步控制更复杂的身体动作和多人场景。

Vimi模型的推出，不仅为AI视频生成领域带来了新的技术突破，也为创作者提供了更高效、低成本的视频创作工具。随着技术的不断发展，我们可以期待AI视频写真的流行，以及更多非专业创作者能够通过Vimi模型讲述自己的故事，丰富未来的视频内容。同时，可控人物AI视频模型的应用，也可能为明星演技的提升提供新的途径。