人人都能当周杰伦！Suno作曲，ChatGPT写词，网友用Transformer造出神曲！

AI-Agent1年前 (2024)发布 ai-front

2,230 0 0

人人都能当周杰伦！Suno作曲，ChatGPT写词，网友用Transformer造出神曲！

文章摘要

近日，人工智能初创企业Suno发布了其音乐生成器Suno模型V3版本，并在官网提供免费试用。Suno模型能够根据用户输入的文本描述，生成包括歌词、人声和配器在内的完整歌曲作品，让音乐创作不再局限于专业人士。Suno模型V3在V2版本的基础上增加了更多音乐风格和流派，并加强了对提示词的依从性，减少了幻觉问题。Suno被誉为“音乐界的ChatGPT”，在社区内迅速传播，引发了一股创作热潮。

Suno团队由Mikey Shulman、Keenan Freyberg、Georg Kucsko和Martin Camacho联合创立，他们都是机器学习方面的专家。团队最初尝试将文字转语音、AI和音频生成结合起来，打造出了首款产品Bark，这是首个基于开源Transformer的“文本到音频”模型。Bark不仅能够生成语音，还可以输出音乐与音效，如哭、笑和叹息等。Suno团队认为音频生成的细分用例仍有改进空间，音频生成已经明显落后于图像和文本生成。

Suno模型V3 Alpha的发布，代表着人工智能音乐的巨大飞跃，其能力是过去版本的10倍以上。用户可以使用Suno生成各种风格的歌曲，包括英文歌曲和中文歌曲，甚至可以将菜谱等非音乐内容转换成音乐。Suno音频生成模型的背后，是将音乐与语音相结合的音频生成探索，其历史可以追溯至Tensorflow Magenta。Suno团队认为，音频生成的关键在于将音频正确转化成token，这个令牌化的过程非常重要。训练数据方面，除了音乐，还需要辅以其他素材，如真实人声素材等。

Suno团队表示，目前的发现还处于极早期阶段，他们才刚刚触及到实现目标的正确方法的浅表。但从后续发展的角度看，还有很多易于实现的目标能够达成。Suno模型的成功，不仅展示了人工智能在音乐创作领域的潜力，也为未来音频生成技术的发展提供了新的方向。