OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

AIGC动态2年前 (2024)发布 almosthuman2014

3,308 0 0

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

文章摘要

OpenAI在5月14日的春季新品发布会上推出了新一代旗舰生成模型GPT-4o，以及桌面应用程序，展示了其新能力。OpenAI的首席技术官Mira Murati主持了发布会，并宣布了三个主要事项：首先，OpenAI的产品将免费提供，以便更多人使用；其次，发布了桌面版本程序和更新后的UI，使用起来更简单自然；最后，发布了新版本的大模型GPT-4o，它以自然的交互方式为每个人提供GPT-4级别的智能，包括免费用户。

GPT-4o模型能够接收文本、音频和图像的任意组合作为输入，并实时生成文本、音频和图像的任意组合输出，代表了未来的交互方式。ChatGPT现在可以无需注册即可使用，并增加了桌面程序，目标是让人们随时随地无感使用，集成到工作流中。GPT-4o是面向未来人机交互范式的全新大模型，具有文本、语音、图像三种模态的理解力，反应极快且具有情感，非常人性化。

在发布会上，OpenAI工程师展示了GPT-4o的主要能力，包括实时语音对话、视觉能力和代码能力。GPT-4o在英语文本和代码上的性能与GPT-4 Turbo相匹配，但在非英语文本上的性能显著提高，同时API速度更快，成本降低了50%。在视觉和音频理解方面尤其出色，响应音频输入的最快时间为232毫秒，平均响应时长为320毫秒，与人类相似。

GPT-4o是全能模型（Omnimodel），在技术上，OpenAI已经找到了一种方法，可以将音频直接映射到音频作为一级模态，并将视频实时传输到transformer。GPT-4o可以跨文本、音频和视频进行实时推理，这是向更自然的人机交互迈出的重要一步。

此外，GPT-4o在理解和生成图像方面的能力比任何现有模型都要好得多，此前很多不可能的任务都变得易如反掌。例如，可以让它帮忙把OpenAI的logo印到杯垫上，或者从6个生成的图像进行3D重建。OpenAI还解决了ChatGPT生成字体的问题，并展示了GPT-4o将诗歌排版为手写样式的能力。

OpenAI总裁Greg Brockman在线展示了GPT-4o的实时对话和即兴创作歌曲的能力，虽然旋律有点感人，但歌词涵盖了房间的装饰风格、人物穿着特点以及期间发生的小插曲等。OpenAI的这次发布会展示了GPT-4o的强大能力和未来人机交互的发展方向。