文章摘要
【关 键 词】 全能模型、自然交互、多模态、安全性、效率提升
OpenAI最近推出了其最新的旗舰模型GPT-4o,这是一个跨音频、视觉和文本的全能模型,代表了自然人机交互的重大进步。GPT-4o能够接收和输出文本、音频和图像的任意组合,响应时间与人类对话反应时间相近,平均响应时间为320毫秒。在处理英语和编程方面,GPT-4o与GPT-4 Turbo表现相当,但在非英语文本处理上有所提升。此外,GPT-4o在API中的运行速度更快,成本降低了50%。
GPT-4o的端到端训练模型覆盖了文本、视觉和音频,所有输入和输出都由同一个神经网络处理。这使得GPT-4o在语音模式中能够直接理解语调、多个说话者的声音或背景噪音,并能输出笑声、歌唱或表达情感,这是之前模型无法实现的。
在模型评估方面,GPT-4o在文本、推理和编程智能方面达到了GPT-4 Turbo级别的表现,并在多语言、音频和视觉能力方面设立了新的高标准。它在多项选择通用知识问题测试(MMLU)中创下了87.2%的新高分,显著提升了语音识别性能,特别是在资源较少的语言上。GPT-4o还在语音翻译方面设立了新的行业标准,并在多语言和视觉评估的M3Exam基准测试中表现更强。
GPT-4o在安全性和局限性方面也进行了设计和评估。它通过过滤训练数据和后训练改善模型行为,OpenAI还创建了新的安全系统,为语音输出提供保护措施。GPT-4o的风险等级在网络安全、化学生物辐射核(CBRN)、说服力和模型自主性等方面没有超过中等。此外,GPT-4o经历了广泛的外部红队测试,以识别新模态可能引入的风险,并利用这些学习成果建立安全干预措施。
GPT-4o的音频模态可能会带来新的风险,因此OpenAI将在技术基础设施、后训练提高可用性和安全性方面进行工作,逐步推出其他模态。目前,GPT-4o的文本和图像功能已在ChatGPT中推出,未来几周内将推出新版语音模式。开发者也可以在API中访问GPT-4o作为文本和视觉模型。GPT-4o的速度是GPT-4 Turbo的两倍,价格减半,速率限制提高了五倍。
OpenAI鼓励用户反馈,以帮助识别GPT-4 Turbo仍然优于GPT-4o的任务,以便继续改进模型。GPT-4o是OpenAI在深度学习领域推动实用性方向界限的最新步骤,团队在过去两年中在整个技术栈的每一层都进行了大量效率改进工作。
原文和模型
【原文链接】 阅读原文 [ 1969字 | 8分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆