文章摘要
【关 键 词】 音乐AI、情感AGI、技术公开、歌曲生成、市场前景
国内首个音乐ChatGPT,「天工SkyMusic」,已经开启内测,引起了编辑部的极大关注。
这款AI音乐生成大模型以其高质量的音乐品质和逼真的人声合成技术,让整个编辑部感到震撼。
它不仅能够生成具有中文特色的歌曲,还能够通过歌词控制歌曲的情绪变化,展现出主歌和副歌、前奏和主歌的段落差异。
此外,「天工SkyMusic」还能够参考特定音频学习特定的曲风,创作出多样化的音乐作品。
「天工SkyMusic」的研发团队在项目初期面临了技术路径的选择,最终决定采用音频方案而非MIDI方案,尽管这意味着巨大的风险。
幸运的是,他们的赌注获得了成功。
他们采用的核心技术架构是基于MoE架构的4000亿级参数多模态超级大模型「天工3.0」,这一技术路径在业界尚无公开资料可参考,因此他们的成功尤为难能可贵。
在技术层面,「天工SkyMusic」的Large-scale Transformer负责谱曲,控制音乐结构和风格,而Diffusion Transformer则负责演唱,通过LDM技术将Music Patches转换为高质量音频输出。
这使得「天工SkyMusic」在音乐情感的捕捉上极为细腻,能够根据歌词和音乐元素生成不同情感氛围的作品。
与市面上的其他AI音乐工具如Suno等相比,「天工SkyMusic」在中文人声合成、音乐风格控制、情感表达等方面具有明显优势。
然而,尽管AI音乐生成技术正在快速发展,但它并不意味着AI会完全取代音乐人。
相反,AI可以降低音乐创作的门槛,拓展音乐创作者群体,激发多元的音乐形态和跨界合作。
同时,AI音乐生成工具可以赋能音乐创作者,提高创作效率。
昆仑万维的研究团队在开发「天工SkyMusic」的过程中,不仅关注技术层面的创新,更强调模型对音乐情感色彩的感知和再现能力。
他们希望通过自研技术,帮助创作者更好地通过AI技术表达和传递情感内涵。
展望未来,随着AI技术的进步,将有越来越多的人通过AI音乐表达自我,音乐市场将迎来新的增长和发展。
原文和模型
【原文链接】 阅读原文 [ 3923字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆