OpenAI语音智能体诞生，怼脸实拍语气狂到飞起！API降到每分钟0.3美分

1,432 0 0

文章摘要

OpenAI最新发布的音频模型标志着语音智能体时代的正式开启。此次发布的三款模型——gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts，分别专注于语音转文本和文本转语音功能，为开发者提供了构建智能体的强大工具。gpt-4o-transcribe在语音转文本任务中表现优于之前的Whisper模型，错误率更低，理解能力更强，而gpt-4o-mini-transcribe则在速度和效率上进行了优化。gpt-4o-mini-tts则赋予了用户更高的可控性，允许用户指定语音内容和语气，进一步提升了语音合成的自然度和个性化。

在价格方面，OpenAI此次的定价策略极具竞争力。语音模型的API价格最低仅为每分钟0.3美分，远低于此前发布的o1-pro API的天价token费用。这一亲民的价格使得语音转文本和文本转语音技术能够广泛应用于客服中心、会议记录等场景，显著降低了成本并提高了效率。此外，新模型在多语言处理上也表现出色，词错误率（WER）显著降低，特别是在嘈杂环境或快速说话的情况下，依然能够保持高准确度。

OpenAI还通过直播展示了新模型的实际应用效果。在演示中，TTS模型能够根据用户指定的语气生成高质量的语音，无论是“疯狂科学家”还是“宁静”的情感表达，都表现得极为自然。开发者仅需9行代码即可将文本智能体转换为语音智能体，使得智能助手能够像真人一样进行对话，极大地提升了用户体验。此外，OpenAI还宣布举办创意竞赛，鼓励开发者探索文本转语音的创新应用，并有机会获得全球限量版收音机。

在技术层面，OpenAI的新模型采用了多项创新方法。模型在专门的音频数据集上进行了预训练，并通过先进的蒸馏技术将大型模型的知识转移到更小、更高效的模型中。此外，强化学习范式的引入进一步提升了语音转文本的准确度，减少了幻觉现象。这些技术突破使得OpenAI的音频模型在语音识别和合成领域处于全球领先地位。

展望未来，OpenAI计划继续提升音频模型的智能性和准确性，并探索引入自定义声音的可能性，以打造更个性化的语音体验。同时，OpenAI还将投资于多模态AI技术，包括视频处理，以帮助开发者构建更丰富的智能体验。通过与政策制定者、研究人员和开发者的合作，OpenAI致力于推动合成语音技术的发展，并应对其带来的挑战与机遇。