OpenAI颠覆世界:GPT-4o完全免费,实时语音视频交互震撼全场,直接进入科幻时代
文章摘要
【关 键 词】 GPT-4o、人机交互、全能模型、实时推理、视觉音频理解
OpenAI在5月14日的春季新品发布会上推出了新一代旗舰生成模型GPT-4o,以及桌面应用程序,展示了其新能力。OpenAI的首席技术官Mira Murati主持了发布会,并宣布了三个主要事项:首先,OpenAI的产品将免费提供,以便更多人使用;其次,发布了桌面版本程序和更新后的UI,使用起来更简单自然;最后,发布了新版本的大模型GPT-4o,它以自然的交互方式为每个人提供GPT-4级别的智能,包括免费用户。
GPT-4o模型能够接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出,代表了未来的交互方式。ChatGPT现在可以无需注册即可使用,并增加了桌面程序,目标是让人们随时随地无感使用,集成到工作流中。GPT-4o是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快且具有情感,非常人性化。
在发布会上,OpenAI工程师展示了GPT-4o的主要能力,包括实时语音对话、视觉能力和代码能力。GPT-4o在英语文本和代码上的性能与GPT-4 Turbo相匹配,但在非英语文本上的性能显著提高,同时API速度更快,成本降低了50%。在视觉和音频理解方面尤其出色,响应音频输入的最快时间为232毫秒,平均响应时长为320毫秒,与人类相似。
GPT-4o是全能模型(Omnimodel),在技术上,OpenAI已经找到了一种方法,可以将音频直接映射到音频作为一级模态,并将视频实时传输到transformer。GPT-4o可以跨文本、音频和视频进行实时推理,这是向更自然的人机交互迈出的重要一步。
此外,GPT-4o在理解和生成图像方面的能力比任何现有模型都要好得多,此前很多不可能的任务都变得易如反掌。例如,可以让它帮忙把OpenAI的logo印到杯垫上,或者从6个生成的图像进行3D重建。OpenAI还解决了ChatGPT生成字体的问题,并展示了GPT-4o将诗歌排版为手写样式的能力。
OpenAI总裁Greg Brockman在线展示了GPT-4o的实时对话和即兴创作歌曲的能力,虽然旋律有点感人,但歌词涵盖了房间的装饰风格、人物穿着特点以及期间发生的小插曲等。OpenAI的这次发布会展示了GPT-4o的强大能力和未来人机交互的发展方向。
原文和模型
【原文链接】 阅读原文 [ 6183字 | 25分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★