标签:音频驱动

百度又放大招!视觉生成模型 Hallo2 或将落地数字人等场景

百度与复旦大学联合发布了Hallo2,这是一个创新的视觉模型,能够生成长达数小时、分辨率高达4K的人物动画。Hallo2的发布在海外引起了广泛关注,其开源模型和...

霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+

Hallo是一种基于分层音频驱动视觉合成模块的开源项目,由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。该项目的主要贡献是提出了一种分...

腾讯:终于补齐了Muse系列数字人开源框架,感谢阿里!

腾讯音乐娱乐的Lyra Lab团队开发了一个名为Muse的开源系列项目,致力于虚拟人类的生成。其中的最后一个模块MusePose,已于5月27日正式发布,标志着Muse系列数...

微软推出VASA-1:可生成会说话的,动态人物视频

本文介绍了微软亚洲研究院推出的VASA-1,这是一个能够通过输入一张图片和一段音频生成表情丰富、细节逼真的动态人物视频的模型。根据演示效果,VASA-1能够以4...

Up主已经开始鬼畜,腾讯开源「AniPortrait」让照片唱歌说话

腾讯最近开源了一个名为AniPortrait的新项目,它能够基于音频和一张参考图像生成高质量的动画人像。这个项目迅速在GitHub上获得了超过2800个星标,显示出其受...

阿里最新图生视频模型效果好得可比肩 Sora,但 0 代码“假”开源让国内外网友骂翻了天?

阿里巴巴集团智能计算研究院推出了一款名为EMO的AI图生视频模型。这个模型能够根据用户提供的一张照片和音频文件生成具有丰富面部表情和头部姿态的视频。EMO...

阿里最新图生视频模型效果好得可比肩Sora,但0代码“假”开源让国内外网友骂翻了天?

摘要:阿里巴巴集团智能计算研究院推出了一款名为EMO(Emote Portrait Alive)的AI图生视频模型。EMO能够根据用户提供的一张照片和音频文件生成具有丰富面部...

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

摘要总结:阿里推出了一款名为EMO的基于音频驱动的肖像视频生成框架,引起了广泛关注。用户只需提供一张参考图像和一段音频,即可生成表情生动的AI视频。这项...