音频生成

音频,audio

腾讯:终于补齐了Muse系列数字人开源框架,感谢阿里!

腾讯音乐娱乐的Lyra Lab团队开发了一个名为Muse的开源系列项目,致力于虚拟人类的生成。其中的最后一个模块MusePose,已于5月27日正式发布,标志着Muse系列数...

OpenAI开源GPT-4 SAE,提供1600万个解释模式

在人工智能领域,大模型如GPT-4的功能日益强大,能够生成文本、图片、视频和音频等多种内容,但其生成过程往往难以精确控制,可能导致歧视性、错误或幻觉等不...

钛媒体AGI独家|“中国版Sora”视频大模型Vidu重大更新:时长延至32秒,首次支持音视频合成

中国自研视频大模型Vidu取得显著进展,完成了三个重大技术迭代,标志着国产视频生成技术的一大步跨越。首先,Vidu已能够一键生成长达32秒的视频,相较于之前...

意外!老黄剧透下一代GPU芯片,新演讲又把摩尔定律按在地上摩擦

在台北大学的体育场上,英伟达创始人黄仁勋以其个人的魅力和公司的技术创新,赢得了满场的欢呼声。他不仅在 COMPUTEX 前夜发布了新一代 GPU,而且还预告了英...

谷歌创新框架:从非结构化数据,实现多模态学习

在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络易出现过拟合和泛化不...

多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」

近期研究表明,通过训练纯解码器生成模型,可以成功地生成包括音频、图像和状态-动作序列在内的多种模态的新序列。这些模型通常采用词汇扩展方法实现多模态表...

USB-C,乱成一锅粥

本文详细讨论了USB-C标准的发展和兼容性问题。首先,USB-C标准以其可正反插的连接器特性,几乎已成为所有高端设备的标准接口,它支持快速充电、数据传输、音...

Elevenlabs发布重磅功能:文生超逼真音乐特效,免费试用!

Elevenlabs,一家专注于生成式AI音乐平台的领先企业,近日推出了一项全新功能,用户只需输入文本描述,即可自动生成各种逼真的音乐特效。这一创新技术极大地...

视觉错觉也能识别?被忽略的 Gemini 1.5 Flash 有哪些神奇表现?|AI 鲜测

在2024年的谷歌I/O大会上,推出了名为Gemini 1.5 Flash的AI模型,该模型以其轻量级、高效率和强大的多模态处理能力著称,能够同时处理文本、图像、音频和视频...

ChatGPT成知名度最高生成式AI产品,使用频率却不高

牛津大学与路透社新闻研究所联合发布了一份关于生成式AI的调查报告,对美国、英国、法国、日本、丹麦和阿根廷的大约12,217人进行了深入调研。报告显示,尽管C...
1 12 13 14 15 16 31