OpenAI 重磅发布 GPT-4o :见证《Her》的诞生!
文章摘要
【关 键 词】 GPT-4o模型、多模态、免费开放、语音翻译、多语言
OpenAI在5月14日的春季更新发布会上宣布了GPT-4o模型的发布,这是一个全能模型,具有原生多模态能力,改进了文本、视觉和音频处理能力。GPT-4o将对所有ChatGPT用户免费开放,并在未来几周内推出,同时提供API,价格比GPT-4 Turbo更低,速度更快。
GPT-4o能够跨越语音、文本和视觉进行推理和交流,所有输入和输出都由同一个神经网络处理,是OpenAI第一个结合所有这些模态的模型。在官方演示中,GPT-4o的语音交流速度非常快,响应语音输入平均只需320毫秒,与人类反应时间类似。此外,GPT-4o还提高了ChatGPT的视觉能力,能够快速识别图片内容并给出准确答复,从解读代码、数学题识别到人脸情绪识别都能轻松应对。在语音翻译方面,GPT-4o也表现出色,发布会上演示的意大利语和英语交流时的同声翻译令人印象深刻。
GPT-4o的文本和图像功能已开始在ChatGPT中推出,OpenAI将向所有用户免费提供GPT-4o,并为Plus用户提供高达5倍的消息数量限制。开发者现在可以通过API以文本和视觉模型的形式访问GPT-4o,与GPT-4 Turbo相比,GPT-4o的价格是其一半,速度是其两倍,并且速率限制是5倍。
GPT-4o还是一种多语言模型,OpenAI声称其在50种不同语言中的性能都有所提高。针对其中的20种语言,新的分词法带来更好的压缩效果。以中文为例,token消耗比之前减少1.4倍。此外,OpenAI即将发布一个桌面客户端以及新的界面UI,在web和app之外给了用户另外一种选择。从今天开始逐步向Plus用户推出macOS应用程序,并将在接下来的几周内持续扩大范围。在今年晚些时候会推出Windows版本。
在官网的展示视频中,OpenAI的工作人员让两个ChatGPT进行交流,AI的语音和视觉识别能力让人印象深刻,以及最后的唱歌片段,都让人想起了电影《Her》中的AI。
原文和模型
【原文链接】 阅读原文 [ 1266字 | 6分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆