文章摘要
【关 键 词】 GPT-4o、全能模型、免费开放、翻译机、视觉能力
OpenAI 最新旗舰大模型 GPT-4o 已经发布,它不仅免费可用,而且能力横跨听、看、说,丝滑流畅毫无延迟,就像在打一个视频电话。GPT-4o 的 “o” 是 Omni 的缩写,意味着 “全能”,可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。它在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。
GPT-4o 与 ChatGPT Plus 会员版所有的能力,包括视觉、联网、记忆、执行代码、GPT Store 等,将对所有用户免费开放。此外,GPT-4o 就是之前在大模型竞技场搞 A/B 测试的模型之一,im-also-a-good-gpt2-chatbot。无论从网友上手体验还是竞技场排位来看,都是高于 GPT-4-Turbo 级别的模型了,ELO 分数一骑绝尘。
GPT-4o 也将提供 API,价格打 5 折,速度提高一倍,单位时间调用次数足足是原来的 5 倍。网友们已经在设想可能的应用,比如可以替代盲人看世界,以及确实感觉比之前的语音模式体验上强上不少。
在发布会直播中,OpenAI 总裁 Brockman 在线演示了 GPT-4o 的能力,包括让 ChatGPT 在语言不通的两个人之间充当翻译机,听到英语就翻译成意大利语,听到意大利语就翻译成英语。此外,Brockman 还发布了额外的 5 分钟详细演示,让两个 ChatGPT 互相对话,最后还唱起来了,戏剧感直接拉满。
发布会直播之外,Brockman 还展示了小 N 的视觉能力,小 N 准确地说出了 Brockman 的衣着打扮和房间环境。而对于要和小 O 对话这件事,小 N 也感到很有趣。接下来就是小 O 和小 N 相互对白的时间了,TA 们依然是从 Brockman 的衣着开始聊起,小 O 不断提出新的问题,小 N 都一一解答。
最后,Brockman 选择加入,直接问有没有看到什么不正常的地方。结果是小 N 直接识破了 Brockman 的小伎俩,直接复述出了女人在他身后做小动作的场景,小 O 听了之后直接感叹原来在这里享受乐趣的不只有我们两个。Brockman 把这句话当成了夸赞,并对小 O 表示了感谢,还愉快地加入了 TA 们的对话。
之后是最后也是最精彩的部分,在 Brockman 的指挥下,小 O 和小 N 根据刚才聊天的内容,直接开启了对唱模式。只过了简单几轮,衔接地就十分密切,而且旋律悠扬,音色也是和真人毫无二致。最后视频以 Brockman 唱出的一句 “Thank you” 结束,在视频外的推文中他还透露新的语音对话功能将在数周内向 Plus 用户开放。
原文和模型
【原文链接】 阅读原文 [ 3616字 | 15分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★