音频生成
音频,audio
腾讯:终于补齐了Muse系列数字人开源框架,感谢阿里!
腾讯音乐娱乐的Lyra Lab团队开发了一个名为Muse的开源系列项目,致力于虚拟人类的生成。其中的最后一个模块MusePose,已于5月27日正式发布,标志着Muse系列数...
OpenAI开源GPT-4 SAE,提供1600万个解释模式
在人工智能领域,大模型如GPT-4的功能日益强大,能够生成文本、图片、视频和音频等多种内容,但其生成过程往往难以精确控制,可能导致歧视性、错误或幻觉等不...
钛媒体AGI独家|“中国版Sora”视频大模型Vidu重大更新:时长延至32秒,首次支持音视频合成
中国自研视频大模型Vidu取得显著进展,完成了三个重大技术迭代,标志着国产视频生成技术的一大步跨越。首先,Vidu已能够一键生成长达32秒的视频,相较于之前...
意外!老黄剧透下一代GPU芯片,新演讲又把摩尔定律按在地上摩擦
在台北大学的体育场上,英伟达创始人黄仁勋以其个人的魅力和公司的技术创新,赢得了满场的欢呼声。他不仅在 COMPUTEX 前夜发布了新一代 GPU,而且还预告了英...
谷歌创新框架:从非结构化数据,实现多模态学习
在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络易出现过拟合和泛化不...
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
近期研究表明,通过训练纯解码器生成模型,可以成功地生成包括音频、图像和状态-动作序列在内的多种模态的新序列。这些模型通常采用词汇扩展方法实现多模态表...
USB-C,乱成一锅粥
本文详细讨论了USB-C标准的发展和兼容性问题。首先,USB-C标准以其可正反插的连接器特性,几乎已成为所有高端设备的标准接口,它支持快速充电、数据传输、音...
Elevenlabs发布重磅功能:文生超逼真音乐特效,免费试用!
Elevenlabs,一家专注于生成式AI音乐平台的领先企业,近日推出了一项全新功能,用户只需输入文本描述,即可自动生成各种逼真的音乐特效。这一创新技术极大地...
视觉错觉也能识别?被忽略的 Gemini 1.5 Flash 有哪些神奇表现?|AI 鲜测
在2024年的谷歌I/O大会上,推出了名为Gemini 1.5 Flash的AI模型,该模型以其轻量级、高效率和强大的多模态处理能力著称,能够同时处理文本、图像、音频和视频...
ChatGPT成知名度最高生成式AI产品,使用频率却不高
牛津大学与路透社新闻研究所联合发布了一份关于生成式AI的调查报告,对美国、英国、法国、日本、丹麦和阿根廷的大约12,217人进行了深入调研。报告显示,尽管C...