杀疯了！地表最强模型GPT-4o登场，速度提升200%、价格便宜50%，或将颠覆实时翻译等行业｜钛媒体AGI

AIGC动态2年前 (2024)发布 TMTPOSTAGI

2,176 0 0

杀疯了！地表最强模型GPT-4o登场，速度提升200%、价格便宜50%，或将颠覆实时翻译等行业｜钛媒体AGI

文章摘要

美国OpenAI公司在5月14日的春季ChatGPT发布会上推出了全新的旗舰AI模型 GPT-4o，该模型能够实时进行音频、视觉和文本推理。GPT-4o的发布在谷歌Google I/O开发者大会前夕成功吸引了业界关注。OpenAI首席技术官米拉·穆拉蒂表示，GPT-4o在API使用方面的价格相比去年11月发布的GPT-4-turbo降低了50%，速度提升了200%。GPT-4o的语音和视频输入功能将在几周内推出。

OpenAI CEO奥尔特曼（Sam Altman）表示，GPT-4o是公司有史以来最好的模型，具有智能、快速、原生多模态的特点，并且对所有ChatGPT用户开放。OpenAI联合创始人兼总裁格雷格·布罗克曼（Greg Brockman）认为，GPT-4o是朝着更自然的人机交互形式迈出的重要一步。

GPT-4o的发布可能会对外语、实时翻译、音视频剪辑等行业产生颠覆性影响。自ChatGPT风靡全球以来，OpenAI公司迅速成长为估值860亿美元的AI独角兽。2023年3月，OpenAI推出了多模态大模型GPT-4，具备图像处理能力，并在专业基准测试中表现接近人类水平。

OpenAI在2023年的年化收入超过20亿美元，同比增长4500%以上，成为历史上增长最快的科技公司之一。2024年，OpenAI继续发力，发布了AI视频大模型Sora，引发了视频和电影行业的关注。此外，OpenAI还面临了高层变动，但最终奥尔特曼重掌公司大权，并组建了董事会。

GPT-4o的主要特色包括模型能力、基准测试、模型安全性和局限性，以及模型的可用性。GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉功能上均处于高位。GPT-4o在5次MMLU（常识问题）上创下了87.2%的新高分，远超其他模型。

GPT-4o的模型安全性和局限性方面，通过过滤训练数据和训练后细化模型行为等技术，在跨模式设计中内置了安全性。新的安全系统为语音输出提供防护。GPT-4o在网络安全、CBRN、说服力和模型自主性等方面的风险评估中，得分均不高于中等风险。

GPT-4o的可用性方面，文本和图像功能已在ChatGPT中推出，免费版和Plus用户可获得更多消息限制。未来几周内，ChatGPT Plus将推出带有GPT-4o的Voice Mode新版本。开发者现在可以通过API访问GPT-4o作为文本和视觉模型，音频和视频功能的支持也将在未来几周内向小部分测试者推出。

此外，OpenAI还宣布免费向所有用户开放其GPT商店，包括创建自定义GPT的能力，以及即将推出ChatGPT桌面版本。OpenAI强调，GPT-4o是公司突破深度学习界限的最新举措，也是朝着实用性方向发展的重要一步。

在AI搜索领域，360公司董事长周鸿祎认为，大模型未来需要“场景的搜索”和“聚焦”，通过专用大模型解决用户痛点或刚需。OpenAI目前面临着流量增长乏力的局面，自去年ChatGPT推出后，流量出现下滑。OpenAI已聚焦到音视频、终端和搜索场景，重点突出了端侧模型和代码生成能力等场景化应用。

前加拿大魁北克省人工智能研究中心（Mila）研究员、麻省理工学院讲师Lior S爆料称，OpenAI已经创建了search.chatgpt.com子域名，预示着OpenAI可能即将追赶谷歌搜索。周鸿祎认为，未来OpenAI一定会诞生AI搜索类型的产品。OpenAI计划在2024年夏天推出更先进的GPT-5模型，期待在算法上实现重大创新，提高模型的运行效率。

奥尔特曼表示，他预见了一个激动人心的未来，并对此感到自豪。OpenAI在不断推进AI技术的发展，为全球AI产业带来了新的机遇和挑战。