文章摘要
【关 键 词】 语音模式、多模态、智能对话、圣诞模式、技术对比
OpenAI最近推出了高级语音模式的新功能,包括实时视频通话、屏幕共享和图像上传,这些功能将在未来几天内向所有Team用户以及大多数ChatGPT Plus和Pro用户推出,但不包括欧盟、瑞士、冰岛、挪威和列支敦士登的用户。Enterprise和Edu用户将在明年1月获得访问权限。屏幕共享和图片上传功能仅在iOS和Android移动应用程序的高级语音模式中推出。
高级语音模式基于原生多模态GPT-4o模型,可以直接接收和输出音频,提供更自然的对话节奏和情感表达。GPT-4o提供了“GPT-4级别”的智能,但改进了GPT-4在文本、视觉以及音频方面的能力。该模式支持超过50种语言,9种逼真输出语音选项,每种语音都有自己独特的语气和特征。GPT-4o可以将语音转换为文本,还可以理解和标记音频的其他功能,例如呼吸和情感。
在圣诞节期间,OpenAI还新增了Santa Mode(圣诞模式),用户可以在ChatGPT中与圣诞老人的声音进行实时互动,支持移动应用、桌面应用和网页版。首次与圣诞老人进行高级语音对话的用户,其高级语音使用额度将被重置一次。
然而,这些更新也迎来了一些网友的吐槽,有人认为这次的更新很“无聊”,或许明天会“很疯狂”。也有网友认为,“这只是Sora上线后的一个‘降温’功能。”此外,谷歌的Gemini 2.0因其能生成文字、图片和语音,并且对所有开发者免费开放,被一些用户视为“GPT-5级别的威胁”。OpenAI的更新与谷歌的Gemini 2.0形成对比,后者从一开始就提供实时语音和视频聊天,而OpenAI在发布后花了将近半年的时间才推出。此外,ChatGPT在昨天下午宕机了近4个小时,包括新发布的Sora在内,这已经不是ChatGPT第一次发生这样的情况。
原文和模型
【原文链接】 阅读原文 [ 1497字 | 6分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆