
文章摘要
【关 键 词】 AI音频、声音模型、技术突破、多语种、语音克隆
MiniMax公司近期发布了其新一代AI声音模型Speech-02,标志着在AI音频领域的技术突破。这一新模型在多个关键指标上表现出色,特别是在语音识别准确度(WER)和音色相似度(SIM)方面,超越了目前市场上公认的领先者11Labs。Speech-02在32种语言中的表现均优于11Labs,尤其是在亚洲语言如日语、越南语和泰语中,WER指标平均在1~4之间,显示出显著的进步。此外,音色相似度的提升使得Speech-02在盲测竞技场中登顶,进一步证明了其技术的领先地位。
Speech-02不仅在技术指标上有所突破,还在实际应用中展现了强大的功能。用户可以通过MiniMax的Audio官网轻松克隆声音,免费用户可克隆3个声音,而付费会员则可克隆多达10个声音。上传的语音片段最短只需10秒,但推荐使用30秒左右的音频以获得最佳效果。克隆过程仅需十几秒,生成的模型即可在多种语言中使用,包括中文、英语、日语等32种语言,且在混合语种处理上也有显著提升。
在实际测试中,Speech-02展现了其在复杂语言环境下的处理能力。例如,在处理混合了中文、英语、日语和西语的文本时,Speech-02能够清晰地识别并复刻出不同语言的发音,尽管在某些细节上仍有改进空间,但整体表现已经达到了史诗级的进步。此外,Speech-02在讲故事场景中能够根据角色和情境自动调整音调和情绪,进一步增强了其逼真度。
除了C端产品的应用,MiniMax还迅速将Speech-02集成到API中,使得任何Agent产品都可以接入这一逼真的语音模型。这一举措不仅提升了用户体验,也进一步巩固了MiniMax在AI音频领域的领导地位。
总的来说,Speech-02的发布不仅是MiniMax在技术上的又一次飞跃,也标志着AI音频领域的一次重大突破。从中文AI语音的领先者到全球AI音频的领军者,MiniMax用技术为世界带来了语言平权,让更多过去被忽视的语言和声音得以被世界听见。这一进展不仅展示了AI技术的多样性,也为未来的AI发展开辟了新的可能性。
原文和模型
【原文链接】 阅读原文 [ 1911字 | 8分钟 ]
【原文作者】 数字生命卡兹克
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆