围猎Suno！国产AI音乐三巨头：华语创作称雄，MV一键生成全球首创

AIGC动态8个月前发布 almosthuman2014

1,929 0 0

文章摘要

谷歌的新一代视频生成模型Veo2以其高分辨率和电影拍摄技巧在视频生成领域取得了显著进步，尽管生成的视频仍是默片。与此同时，国内互联网公司通过音乐大模型实现了视听同步生成的新玩法，用户只需上传视频，即可生成匹配的30秒MV。趣丸科技推出的“天谱乐”是全球首个多模态配乐大模型，支持文本、图片和视频生曲，生成高度匹配的BGM和MV效果。与Suno V3和Udio相比，“天谱乐”在人声问题上实现了技术突破，中文人声唱词达到了专业级效果，减少了电音感，拥有更真实的歌手声音。

“天谱乐”的技术突破来自于长序列音乐语意建模和高质量音频空间建模的进一步突破，高度还原音乐音频在高维空间的连续信号表征，实现音乐性和音质的飞跃。基于大模型，“天谱乐”能准确识别画面情绪和基调，完成卡点，生成精准匹配的背景音乐，这种先进的多模态理解与生成能力使“天谱乐”达到了国际领先水平。

2023年12月底上线的Suno迅速成为2024年AI音乐领域的焦点。在国内，类似Suno的音乐创作模型接连面世，趣丸科技“天谱乐”与字节跳动、昆仑万维两家音乐大模型形成“三分天下有其一”的格局。昆仑万维的音乐生成模型“天工SkyMusic”基于“天工3.0”超级大模型打造，能够快速生成多种风格的音乐作品。字节跳动携豆包音乐大模型加入AI音乐战局，其模型全面接入豆包App、海绵音乐App，向所有用户开放。

在线音乐巨头如网易云音乐和腾讯音乐则审慎得多，分别推出了具备AI辅助创作功能的“天音”和“启明星”平台。技术可以跨越国界，但应用一定要满足本地用户的需求。国内AI音乐模型的发展更接地气，得益于更容易获得符合本土市场偏好的华语和国风音乐训练数据，国内模型能够更准确地把握中国听众的音乐审美偏好。

国内音乐大模型市场展现出独特的竞争格局，主导者是一批深耕内容与文娱领域的互联网企业。他们将重点放在降低创作门槛上，帮普通人生成个性化音乐，除了想在C端市场快速建立起存在感，也源于自身业务的深层需求。数据显示，2023年抖音用户投稿超过100亿，其中有78%的内容都含有BGM，对30秒到1分钟不等的配乐需求量巨大。音乐大模型能低成本批量生成个性化BGM，满足迫切的业务需求。

2024年，音乐大模型横空出世终于补齐了AIGC时代“创作平权”的最后一块拼图。随着技术持续迭代，国内AI音乐应用也正朝着双轨并行的方向演进。以“天谱乐”为例，一方面践行着“人人都能玩点音乐”，为普通用户提供娱乐性音乐生成服务；另一方面也在为专业人士提供更加实用的创作辅助，创造更大价值。