视觉语音交互毫无延迟，都成精了居然还不是GPT-5?

AIGC动态1年前 (2024)发布 Si-Planet

2,098 0 0

文章摘要

OpenAI于2024年5月14日举行了一场名为“春季功能更新”的发布会，推出了新的人工智能模型GPT-4o。这个模型虽然不是GPT-5，但其展示的功能已经令人印象深刻。OpenAI的CTO Mira Murati在发布会上介绍了GPT-4o，强调该模型旨在为所有人服务，并通过交互更新使用户忘记用户界面的存在，这与OpenAI的愿景相符。

在演示环节，GPT-4o展现了其实时对话能力，能够无延迟地响应并适应用户的情绪变化。例如，当演示者Mark故意快速呼吸表示紧张时，GPT-4o能够识别并以女性声音安慰他，且在对话中无需等待回应，能够实时打断和调整。此外，GPT-4o还能以不同的情感风格生成声音，具有广泛的动态范围。

GPT-4o的视觉能力也在发布会上得到了展示。它能够通过摄像头实时指导数学解题，甚至在摄像头未打开时就能“理解”问题。在另一个实时反馈的演示中，GPT-4o能够分析演示者的情绪，即使最初摄像头对准的是桌子，GPT-4o也能迅速调整并正确分析演示者的表情。

这些演示展现了GPT-4o的几个关键特点：无需多余点击操作的交互、无延迟的视觉和声音反馈、能够感知用户情感并自带情绪、对数字化世界有全面的信息感知，并且所有功能集成在一个可能对所有人免费的产品中。

发布会后，OpenAI在官网更新了GPT-4o模型的具体信息。这次更新不仅展示了技术的进步，也对创业公司构成了威胁。OpenAI的CEO Sam Altman曾表示，OpenAI将继续改进模型，并暗示那些不适应这种快速迭代的公司将面临被淘汰的风险。

总的来说，GPT-4o的发布标志着人工智能领域的一个重要里程碑，它不仅提升了AI与人类交互的自然度和实时性，还增加了情感识别和视觉能力，为未来的AI发展和应用开辟了新的可能性。同时，这也对创业环境和现有企业构成了挑战，要求他们快速适应并利用这些新技术。