文章摘要
【关 键 词】 人工智能、音乐生成、Suno、音频技术、创新
近日,人工智能初创企业Suno发布了其音乐生成器Suno模型V3版本,并在官网提供免费试用。Suno模型能够根据用户输入的文本描述,生成包括歌词、人声和配器在内的完整歌曲作品,让音乐创作不再局限于专业人士。Suno模型V3在V2版本的基础上增加了更多音乐风格和流派,并加强了对提示词的依从性,减少了幻觉问题。Suno被誉为“音乐界的ChatGPT”,在社区内迅速传播,引发了一股创作热潮。
Suno团队由Mikey Shulman、Keenan Freyberg、Georg Kucsko和Martin Camacho联合创立,他们都是机器学习方面的专家。团队最初尝试将文字转语音、AI和音频生成结合起来,打造出了首款产品Bark,这是首个基于开源Transformer的“文本到音频”模型。Bark不仅能够生成语音,还可以输出音乐与音效,如哭、笑和叹息等。Suno团队认为音频生成的细分用例仍有改进空间,音频生成已经明显落后于图像和文本生成。
Suno模型V3 Alpha的发布,代表着人工智能音乐的巨大飞跃,其能力是过去版本的10倍以上。用户可以使用Suno生成各种风格的歌曲,包括英文歌曲和中文歌曲,甚至可以将菜谱等非音乐内容转换成音乐。Suno音频生成模型的背后,是将音乐与语音相结合的音频生成探索,其历史可以追溯至Tensorflow Magenta。Suno团队认为,音频生成的关键在于将音频正确转化成token,这个令牌化的过程非常重要。训练数据方面,除了音乐,还需要辅以其他素材,如真实人声素材等。
Suno团队表示,目前的发现还处于极早期阶段,他们才刚刚触及到实现目标的正确方法的浅表。但从后续发展的角度看,还有很多易于实现的目标能够达成。Suno模型的成功,不仅展示了人工智能在音乐创作领域的潜力,也为未来音频生成技术的发展提供了新的方向。
原文和模型
【原文链接】 阅读原文 [ 2780字 | 12分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆