音频生成
音频,audio
霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+
Hallo是一种基于分层音频驱动视觉合成模块的开源项目,由复旦大学、百度、苏黎世联邦理工学院和南京大学的研究人员共同完成。该项目的主要贡献是提出了一种分...
重磅!OpenAI与苹果合作,将ChatGPT集成在iOS 18中
在最新的技术合作中,OpenAI与苹果公司携手,将ChatGPT深度集成至苹果产品矩阵中,涵盖iOS、iPadOS和macOS。苹果采用的ChatGPT技术由GPT-4o提供支持,这是Ope...
腾讯:终于补齐了Muse系列数字人开源框架,感谢阿里!
腾讯音乐娱乐的Lyra Lab团队开发了一个名为Muse的开源系列项目,致力于虚拟人类的生成。其中的最后一个模块MusePose,已于5月27日正式发布,标志着Muse系列数...
OpenAI开源GPT-4 SAE,提供1600万个解释模式
在人工智能领域,大模型如GPT-4的功能日益强大,能够生成文本、图片、视频和音频等多种内容,但其生成过程往往难以精确控制,可能导致歧视性、错误或幻觉等不...
钛媒体AGI独家|“中国版Sora”视频大模型Vidu重大更新:时长延至32秒,首次支持音视频合成
中国自研视频大模型Vidu取得显著进展,完成了三个重大技术迭代,标志着国产视频生成技术的一大步跨越。首先,Vidu已能够一键生成长达32秒的视频,相较于之前...
意外!老黄剧透下一代GPU芯片,新演讲又把摩尔定律按在地上摩擦
在台北大学的体育场上,英伟达创始人黄仁勋以其个人的魅力和公司的技术创新,赢得了满场的欢呼声。他不仅在 COMPUTEX 前夜发布了新一代 GPU,而且还预告了英...
谷歌创新框架:从非结构化数据,实现多模态学习
在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络易出现过拟合和泛化不...
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
近期研究表明,通过训练纯解码器生成模型,可以成功地生成包括音频、图像和状态-动作序列在内的多种模态的新序列。这些模型通常采用词汇扩展方法实现多模态表...
USB-C,乱成一锅粥
本文详细讨论了USB-C标准的发展和兼容性问题。首先,USB-C标准以其可正反插的连接器特性,几乎已成为所有高端设备的标准接口,它支持快速充电、数据传输、音...
Elevenlabs发布重磅功能:文生超逼真音乐特效,免费试用!
Elevenlabs,一家专注于生成式AI音乐平台的领先企业,近日推出了一项全新功能,用户只需输入文本描述,即可自动生成各种逼真的音乐特效。这一创新技术极大地...