杀疯了!地表最强模型GPT-4o登场,速度提升200%、价格便宜50%,或将颠覆实时翻译等行业|钛媒体AGI
文章摘要
【关 键 词】 AI模型、GPT-4o、多模态、OpenAI、技术创新
美国OpenAI公司在5月14日的春季ChatGPT发布会上推出了全新的旗舰AI模型GPT-4o,该模型能够实时进行音频、视觉和文本推理。GPT-4o的发布在谷歌Google I/O开发者大会前夕成功吸引了业界关注。OpenAI首席技术官米拉·穆拉蒂表示,GPT-4o在API使用方面的价格相比去年11月发布的GPT-4-turbo降低了50%,速度提升了200%。GPT-4o的语音和视频输入功能将在几周内推出。
OpenAI CEO奥尔特曼(Sam Altman)表示,GPT-4o是公司有史以来最好的模型,具有智能、快速、原生多模态的特点,并且对所有ChatGPT用户开放。OpenAI联合创始人兼总裁格雷格·布罗克曼(Greg Brockman)认为,GPT-4o是朝着更自然的人机交互形式迈出的重要一步。
GPT-4o的发布可能会对外语、实时翻译、音视频剪辑等行业产生颠覆性影响。自ChatGPT风靡全球以来,OpenAI公司迅速成长为估值860亿美元的AI独角兽。2023年3月,OpenAI推出了多模态大模型GPT-4,具备图像处理能力,并在专业基准测试中表现接近人类水平。
OpenAI在2023年的年化收入超过20亿美元,同比增长4500%以上,成为历史上增长最快的科技公司之一。2024年,OpenAI继续发力,发布了AI视频大模型Sora,引发了视频和电影行业的关注。此外,OpenAI还面临了高层变动,但最终奥尔特曼重掌公司大权,并组建了董事会。
GPT-4o的主要特色包括模型能力、基准测试、模型安全性和局限性,以及模型的可用性。GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉功能上均处于高位。GPT-4o在5次MMLU(常识问题)上创下了87.2%的新高分,远超其他模型。
GPT-4o的模型安全性和局限性方面,通过过滤训练数据和训练后细化模型行为等技术,在跨模式设计中内置了安全性。新的安全系统为语音输出提供防护。GPT-4o在网络安全、CBRN、说服力和模型自主性等方面的风险评估中,得分均不高于中等风险。
GPT-4o的可用性方面,文本和图像功能已在ChatGPT中推出,免费版和Plus用户可获得更多消息限制。未来几周内,ChatGPT Plus将推出带有GPT-4o的Voice Mode新版本。开发者现在可以通过API访问GPT-4o作为文本和视觉模型,音频和视频功能的支持也将在未来几周内向小部分测试者推出。
此外,OpenAI还宣布免费向所有用户开放其GPT商店,包括创建自定义GPT的能力,以及即将推出ChatGPT桌面版本。OpenAI强调,GPT-4o是公司突破深度学习界限的最新举措,也是朝着实用性方向发展的重要一步。
在AI搜索领域,360公司董事长周鸿祎认为,大模型未来需要“场景的搜索”和“聚焦”,通过专用大模型解决用户痛点或刚需。OpenAI目前面临着流量增长乏力的局面,自去年ChatGPT推出后,流量出现下滑。OpenAI已聚焦到音视频、终端和搜索场景,重点突出了端侧模型和代码生成能力等场景化应用。
前加拿大魁北克省人工智能研究中心(Mila)研究员、麻省理工学院讲师Lior S爆料称,OpenAI已经创建了search.chatgpt.com子域名,预示着OpenAI可能即将追赶谷歌搜索。周鸿祎认为,未来OpenAI一定会诞生AI搜索类型的产品。OpenAI计划在2024年夏天推出更先进的GPT-5模型,期待在算法上实现重大创新,提高模型的运行效率。
奥尔特曼表示,他预见了一个激动人心的未来,并对此感到自豪。OpenAI在不断推进AI技术的发展,为全球AI产业带来了新的机遇和挑战。
原文和模型
【原文链接】 阅读原文 [ 3860字 | 16分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆