
文章摘要
【关 键 词】 语音识别、文本生成、模型对比、API接入、价格分析
OpenAI近期发布了一系列新的语音和文本处理模型,包括两个语音转文本(STT)模型和一个文本生成语音(TTS)模型。这些模型通过API提供接入方式,旨在提升语音识别的准确性和文本生成语音的自然度。首先,gpt-4o-transcribe和gpt-4o-mini-transcribe是OpenAI推出的两个STT模型,前者是完整版,后者是小参数版。这两个模型的核心在于提高语音识别的准确率,尤其是在多语言环境下的表现。通过FLEURS数据集的测试,OpenAI的模型在词错率(WER)上表现优异,尤其是在英语等主流语言中,但在中文等语言上仍存在一定的挑战。与Google的Gemini和Anthropic的Scribe相比,OpenAI的模型在对比中达到了SOTA(当前最优水平),但未与其他未公开的模型进行对比。此外,gpt-4o-transcribe具备自动清噪和去除非主线人物语音的功能,使得在复杂音频环境下的转录效果更加准确。
在价格方面,gpt-4o-transcribe每分钟收费$0.006,而gpt-4o-mini-transcribe则更为经济,每分钟仅需$0.003,性价比尤为突出。对于开发者而言,这两个模型在语音识别任务中表现出色,尤其是gpt-4o-mini-transcribe,价格低廉且性能接近完整版,值得推荐。
另一方面,OpenAI还推出了gpt-4o-mini-tts,这是一个新的TTS模型,主要用于将文本转换为语音。在英语生成效果上,该模型表现良好,但在中文生成上存在明显不足,发音不够自然,与国内如Minimax等中文语音模型相比差距较大。尽管如此,gpt-4o-mini-tts在价格上具有优势,每分钟仅需$0.015,远低于市场上其他同类产品。OpenAI还为该模型提供了一个功能演示网站,用户可以通过自定义参数生成不同情绪基调的语音,但实际操作中,手动调整参数较为繁琐,建议直接使用AI生成的提示词。
总体而言,OpenAI此次发布的模型在语音识别和文本生成语音领域取得了显著进展,尤其是在多语言识别和价格竞争力方面表现突出。然而,中文语音生成仍然是其短板,建议在中文场景下使用国内如Minimax等更为成熟的解决方案。对于开发者而言,OpenAI的API接入方式简便,仅需10行代码即可完成集成,极大降低了使用门槛。
原文和模型
【原文链接】 阅读原文 [ 1972字 | 8分钟 ]
【原文作者】 数字生命卡兹克
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆