音频生成
音频,audio
AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap
摘要总结:阿里推出了一款名为EMO的基于音频驱动的肖像视频生成框架,引起了广泛关注。用户只需提供一张参考图像和一段音频,即可生成表情生动的AI视频。这项...
商汤全球首创「日日新SenseNova 4.0」惊天大模型!彻底颠覆你的AI体验
近日,中国人工智能企业商汤宣布推出全球首个多模态大型模型“日日新SenseNova 4.0”。该模型能同时处理文本、图像、音频等不同形式的数据,并在多项任务上超越...
融资丨医疗对话AI初创公司Abridge完成1. 5亿美元C轮融资
医疗保健生成式AI领域最大的融资轮之一来了! Abridge近期宣布完成额外1.5亿美元C轮融资,由Lightspeed Venture Partners领投,Redpoint ventures联合领投,B...
太炸裂了!阿里开发出 AI 图生视频模型EMO,“高启强”普法、蒙拉丽莎唱歌,B站鬼畜即将被AI取代|钛媒体AGI
阿里巴巴集团智能计算研究院推出了一款名为EMO的AI图片-音频-视频模型技术,这是一种能够根据一张照片和音频文件生成会说话唱歌的AI视频的技术。EMO技术能够...
与Sora一样能生成视频、图像,还能一次解读100万数据!
本文介绍了加州大学伯克利分校研究人员开源的大世界模型(LWM),这是一种多模态自回归模型,具备文本、音频、图像和视频的生成与理解能力。LWM能够一次性精...
Sora无法替代人类!亚马逊工程师断言:实际工作冲突不可能靠AI解决
摘要:亚马逊工程师Cameron Gould对OpenAI新发布的视频AI工具Sora进行了分析。他认为,尽管生成式AI在创意内容生成方面表现出色,但它并不会导致人类失业。Go...
Mamba正式被ICLR拒收!“年度最佳技术原理解读”却火了
Mamba,这个被寄予厚望的Transformer挑战者,尽管在学术界引起了广泛关注,但最终还是被ICLR会议拒绝。尽管如此,Mamba的热度并未受到影响,一篇关于它的最新...
安卓率先跑通多模态大模型,终端本地就能看图生成文本!高通:WiFi都会AI起来
在MWC 2024首日,高通展示了其在终端侧AI领域的最新进展。首先,高通成功将多模态大模型首次本地部署在安卓手机上,这意味着用户可以通过手机AI助手输入照片...
就是“快”!字节跳动发布文生图开放模型,迅速冲上Hugging Face Spaces 热榜
字节跳动智能创作团队介绍了他们最新的文生图模型SDXL-Lightning,该模型在速度和质量上实现了突破,并已向社区开放。SDXL-Lightning通过渐进式对抗蒸馏技术...
Sora爆火!人工智能将如何改变世界?
摘要:近期,人工智能技术的发展引起了广泛关注。美国OpenAI发布了首个视频生成模型“Sora”,能够根据文本指令生成60秒短视频。此外,谷歌公司的“巴德”(现更...