OpenAI版Her登场，GPT能实时视频通话了！德扑AI之父：比 o1“更受宠”的模式降临

AIGC动态1年前 (2024)发布 ai-front

2,536 0 0

OpenAI版Her登场，GPT能实时视频通话了！德扑AI之父：比 o1“更受宠”的模式降临

文章摘要

OpenAI最近推出了高级语音模式的新功能，包括实时视频通话、屏幕共享和图像上传，这些功能将在未来几天内向所有Team用户以及大多数ChatGPT Plus和Pro用户推出，但不包括欧盟、瑞士、冰岛、挪威和列支敦士登的用户。Enterprise和Edu用户将在明年1月获得访问权限。屏幕共享和图片上传功能仅在iOS和Android移动应用程序的高级语音模式中推出。

高级语音模式基于原生多模态GPT-4o模型，可以直接接收和输出音频，提供更自然的对话节奏和情感表达。GPT-4o提供了“GPT-4级别”的智能，但改进了GPT-4在文本、视觉以及音频方面的能力。该模式支持超过50种语言，9种逼真输出语音选项，每种语音都有自己独特的语气和特征。GPT-4o可以将语音转换为文本，还可以理解和标记音频的其他功能，例如呼吸和情感。

在圣诞节期间，OpenAI还新增了Santa Mode（圣诞模式），用户可以在ChatGPT中与圣诞老人的声音进行实时互动，支持移动应用、桌面应用和网页版。首次与圣诞老人进行高级语音对话的用户，其高级语音使用额度将被重置一次。

然而，这些更新也迎来了一些网友的吐槽，有人认为这次的更新很“无聊”，或许明天会“很疯狂”。也有网友认为，“这只是Sora上线后的一个‘降温’功能。”此外，谷歌的Gemini 2.0因其能生成文字、图片和语音，并且对所有开发者免费开放，被一些用户视为“GPT-5级别的威胁”。OpenAI的更新与谷歌的Gemini 2.0形成对比，后者从一开始就提供实时语音和视频聊天，而OpenAI在发布后花了将近半年的时间才推出。此外，ChatGPT在昨天下午宕机了近4个小时，包括新发布的Sora在内，这已经不是ChatGPT第一次发生这样的情况。