几十个测试后,发现海螺语音与 ElevenLabs 掰手腕的能力不是盖的
文章摘要
【关 键 词】 语音合成、多语言、情绪识别、音色控制、AI创新
MiniMax公司推出的海螺语音AI工具以其卓越的语音生成能力在市场中占据领先地位。该工具基于升级的T2A-01系列语音大模型,能够快速稳定地生成语音,具备音质清晰、韵律自然、情绪精准表达和高准确度等特点。海螺语音支持17种语言和上百种预置音色,无需抽卡即可达到高水平的稳定输出。在处理绕口令“施氏食狮史”的测试中,海螺语音表现出色,优于ChatTTS和ElevenLabs,展现了其在语音大模型中的领先地位。
海螺AI在多语言合成能力上与ElevenLabs不相上下,甚至在某些方面更胜一筹。MiniMax团队采用Seed-TTS论文相同的评测集和工具,结果显示海螺语音在中文的字错率和相似度最好,英文的表现也接近真实录音。在多语种评测中,海螺语音在相似度和正确率方面大幅领先,展现了其强大的多语种能力。
海螺语音的另一个显著优势是精准的情绪和音色控制。MiniMax对超千万小时的高质量音频数据进行加工和训练,实现了高音质和情感丰富的声音效果。海螺语音具备情感理解能力,能够智能识别并重现语音中的情感差异,用户可以指定情绪,生成精准捕捉人类情感的语音输出。此外,海螺语音提供300+预置音色,用户可以根据需要进行自定义调整,满足不同场景的需求。
MiniMax致力于多模态模型的开发,海螺AI的推出是其长期投入和持续发力的结果。公司面向AGI(人工通用智能)投入,多模态能力是实现这一目标的明晰路径。MiniMax已经在文本、视频和语音能力上进行了全面更新,展现了其在AI领域的创新能力和技术实力。
原文和模型
【原文链接】 阅读原文 [ 3164字 | 13分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆