重磅！OpenAI发布GPT-4o，非常惊艳语音版ChatGPT！

AIGC动态2年前 (2024)发布 AIGCOPEN

3,721 0 0

文章摘要

OpenAI最近发布了其新旗舰模型GPT-4o，这是一个具有里程碑意义的事件，因为它标志着全球生成式人工智能领域的一个重大进步。GPT-4o不仅能够处理文本，还能跨视频和音频进行实时推理，这大大扩展了其应用范围。新模型的发布引起了广泛关注，特别是在AIGC（人工智能生成内容）领域的专业社区中。

GPT-4o的能力包括实时翻译、唱歌、解决数学问题和讲笑话等，这些功能的实现意味着它可能会对家教、翻译和秘书等职业产生影响。OpenAI通过GPT-4o打造的语音版ChatGPT助手展示了其与用户跨音频、视频进行交流的能力。在一次演示中，GPT-4o能够描述周围环境并猜测用户的日程，甚至在被告知发布会与它有关时，展现出了类似人类的惊讶和停顿反应。

OpenAI总裁兼联合创始人Greg Brockman还展示了两个GPT-4o语音助手之间的互动，包括对话和唱歌。此外，GPT-4o在辅导数学题时采用了引导式的教学方法，而不是直接给出答案，这表明它在教育辅导方面的潜力。

GPT-4o还展示了其在社交方面的能力，能够解读宠物狗的行为。在多语言交流方面，GPT-4o能够实现实时翻译，用户说完一句话后，它就能立即以语音形式提供翻译，这比传统的翻译软件更快、更适合实时交流。

技术性能方面，GPT-4o是一个多模态模型，支持文本、视频、音频三种数据格式的输入和输出。它在语音响应上的速度非常快，平均响应时间为320毫秒。在MMLU（Massive Multitask Language Understanding）评测中，GPT-4o创下了88.7%的新高分，超过了市面上其他著名的大模型。它的音频ASR（自动语音识别）性能也有显著提升，尤其是对于小语种的识别能力。

OpenAI宣布将免费开放GPT-4o的文本和图像功能，即使是非付费用户也可以体验。开发人员可以通过API访问GPT-4o的文本和视觉功能，与GPT-4 Turbo相比，GPT-4o的速度提高了两倍，价格降低了50%，同时大幅降低了tokens限制。未来几周内，OpenAI计划在ChatGPT Plus中推出新版语音模式GPT-4o的alpha版，这将进一步增强其功能。这些进步预示着人工智能在多个领域的应用将变得更加广泛和深入，同时也引发了对未来工作和社会影响的深思。