音频生成
音频,audio
轻松让张国荣、赫本唱歌,阿里推出创新视频模型EMO
本文介绍了阿里巴巴集团AI研究院推出的创新性视频模型——EMO。该模型能够通过用户提供的图像和音频生成表情丰富的视频,如让张国荣唱歌或让赫本唱《Perfect》...
让Sora东京女郎唱歌、高启强变声罗翔,阿里人物口型视频生成绝了
摘要:机器之心报道了阿里巴巴智能计算研究院的EMO(Emote Portrait Alive)框架,这是一个音频-视频合成方法,用于生成表现力强、真实度高的说话人头部视频...
AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap
摘要总结:阿里推出了一款名为EMO的基于音频驱动的肖像视频生成框架,引起了广泛关注。用户只需提供一张参考图像和一段音频,即可生成表情生动的AI视频。这项...
商汤全球首创「日日新SenseNova 4.0」惊天大模型!彻底颠覆你的AI体验
近日,中国人工智能企业商汤宣布推出全球首个多模态大型模型“日日新SenseNova 4.0”。该模型能同时处理文本、图像、音频等不同形式的数据,并在多项任务上超越...
融资丨医疗对话AI初创公司Abridge完成1. 5亿美元C轮融资
医疗保健生成式AI领域最大的融资轮之一来了! Abridge近期宣布完成额外1.5亿美元C轮融资,由Lightspeed Venture Partners领投,Redpoint ventures联合领投,B...
太炸裂了!阿里开发出 AI 图生视频模型EMO,“高启强”普法、蒙拉丽莎唱歌,B站鬼畜即将被AI取代|钛媒体AGI
阿里巴巴集团智能计算研究院推出了一款名为EMO的AI图片-音频-视频模型技术,这是一种能够根据一张照片和音频文件生成会说话唱歌的AI视频的技术。EMO技术能够...
与Sora一样能生成视频、图像,还能一次解读100万数据!
本文介绍了加州大学伯克利分校研究人员开源的大世界模型(LWM),这是一种多模态自回归模型,具备文本、音频、图像和视频的生成与理解能力。LWM能够一次性精...
Sora无法替代人类!亚马逊工程师断言:实际工作冲突不可能靠AI解决
摘要:亚马逊工程师Cameron Gould对OpenAI新发布的视频AI工具Sora进行了分析。他认为,尽管生成式AI在创意内容生成方面表现出色,但它并不会导致人类失业。Go...
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了
Mamba,这个被寄予厚望的Transformer挑战者,尽管在学术界引起了广泛关注,但最终还是被ICLR会议拒绝。尽管如此,Mamba的热度并未受到影响,一篇关于它的最新...
安卓率先跑通多模态大模型,终端本地就能看图生成文本!高通:WiFi都会AI起来
在MWC 2024首日,高通展示了其在终端侧AI领域的最新进展。首先,高通成功将多模态大模型首次本地部署在安卓手机上,这意味着用户可以通过手机AI助手输入照片...