重磅!OpenAI发布GPT-4o,非常惊艳语音版ChatGPT!

AIGC动态6个月前发布 AIGCOPEN
1,047 0 0
重磅!OpenAI发布GPT-4o,非常惊艳语音版ChatGPT!

 

文章摘要


【关 键 词】 AIGC大语言模型GPT-4o实时翻译市场研究

OpenAI最近发布了其新旗舰模型GPT-4o,这是一个具有里程碑意义的事件,因为它标志着全球生成式人工智能领域的一个重大进步。GPT-4o不仅能够处理文本,还能跨视频和音频进行实时推理,这大大扩展了其应用范围。新模型的发布引起了广泛关注,特别是在AIGC(人工智能生成内容)领域的专业社区中。

GPT-4o的能力包括实时翻译、唱歌、解决数学问题和讲笑话等,这些功能的实现意味着它可能会对家教、翻译和秘书等职业产生影响。OpenAI通过GPT-4o打造的语音版ChatGPT助手展示了其与用户跨音频、视频进行交流的能力。在一次演示中,GPT-4o能够描述周围环境并猜测用户的日程,甚至在被告知发布会与它有关时,展现出了类似人类的惊讶和停顿反应。

OpenAI总裁兼联合创始人Greg Brockman还展示了两个GPT-4o语音助手之间的互动,包括对话和唱歌。此外,GPT-4o在辅导数学题时采用了引导式的教学方法,而不是直接给出答案,这表明它在教育辅导方面的潜力。

GPT-4o还展示了其在社交方面的能力,能够解读宠物狗的行为。在多语言交流方面,GPT-4o能够实现实时翻译,用户说完一句话后,它就能立即以语音形式提供翻译,这比传统的翻译软件更快、更适合实时交流。

技术性能方面,GPT-4o是一个多模态模型,支持文本、视频、音频三种数据格式的输入和输出。它在语音响应上的速度非常快,平均响应时间为320毫秒。在MMLU(Massive Multitask Language Understanding)评测中,GPT-4o创下了88.7%的新高分,超过了市面上其他著名的大模型。它的音频ASR(自动语音识别)性能也有显著提升,尤其是对于小语种的识别能力。

OpenAI宣布将免费开放GPT-4o的文本和图像功能,即使是非付费用户也可以体验。开发人员可以通过API访问GPT-4o的文本和视觉功能,与GPT-4 Turbo相比,GPT-4o的速度提高了两倍,价格降低了50%,同时大幅降低了tokens限制。未来几周内,OpenAI计划在ChatGPT Plus中推出新版语音模式GPT-4o的alpha版,这将进一步增强其功能。这些进步预示着人工智能在多个领域的应用将变得更加广泛和深入,同时也引发了对未来工作和社会影响的深思。

原文和模型


【原文链接】 阅读原文 [ 2068字 | 9分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...