这才是现在最强的AI声音模型。

1,034 0 0

文章摘要

MiniMax公司近期发布了其新一代AI声音模型Speech-02，标志着在AI音频领域的技术突破。这一新模型在多个关键指标上表现出色，特别是在语音识别准确度（WER）和音色相似度（SIM）方面，超越了目前市场上公认的领先者11Labs。Speech-02在32种语言中的表现均优于11Labs，尤其是在亚洲语言如日语、越南语和泰语中，WER指标平均在1~4之间，显示出显著的进步。此外，音色相似度的提升使得Speech-02在盲测竞技场中登顶，进一步证明了其技术的领先地位。

Speech-02不仅在技术指标上有所突破，还在实际应用中展现了强大的功能。用户可以通过MiniMax的Audio官网轻松克隆声音，免费用户可克隆3个声音，而付费会员则可克隆多达10个声音。上传的语音片段最短只需10秒，但推荐使用30秒左右的音频以获得最佳效果。克隆过程仅需十几秒，生成的模型即可在多种语言中使用，包括中文、英语、日语等32种语言，且在混合语种处理上也有显著提升。

在实际测试中，Speech-02展现了其在复杂语言环境下的处理能力。例如，在处理混合了中文、英语、日语和西语的文本时，Speech-02能够清晰地识别并复刻出不同语言的发音，尽管在某些细节上仍有改进空间，但整体表现已经达到了史诗级的进步。此外，Speech-02在讲故事场景中能够根据角色和情境自动调整音调和情绪，进一步增强了其逼真度。

除了C端产品的应用，MiniMax还迅速将Speech-02集成到API中，使得任何Agent产品都可以接入这一逼真的语音模型。这一举措不仅提升了用户体验，也进一步巩固了MiniMax在AI音频领域的领导地位。

总的来说，Speech-02的发布不仅是MiniMax在技术上的又一次飞跃，也标志着AI音频领域的一次重大突破。从中文AI语音的领先者到全球AI音频的领军者，MiniMax用技术为世界带来了语言平权，让更多过去被忽视的语言和声音得以被世界听见。这一进展不仅展示了AI技术的多样性，也为未来的AI发展开辟了新的可能性。