免费GPT-4o来袭，音频视觉文本实现「大一统」

AIGC动态1年前 (2024)发布 aitechtalk

2,635 0 0

文章摘要

【关键词】 OpenAI、GPT-4o、ChatGPT、AI技术、实时语音助手

在北京时间5月14日凌晨1点，OpenAI召开了首场春季发布会，由CTO Mira Murati主持。在短短30分钟内，Mira Murati和团队展示了最新旗舰模型GPT-4o及其基于GPT-4o的ChatGPT，两者均免费提供。此前有传言称OpenAI将推出AI搜索引擎，与谷歌的I/O开发者大会竞争，但Sam Altman在社交媒体上澄清，他们将展示的是一些令人期待的创新成果，而非GPT-5或搜索引擎。

发布会上，Mira Murati宣布了ChatGPT的桌面版本和新用户界面，并重点介绍了GPT-4o。GPT-4o搭载的ChatGPT在不同任务中表现出色，尤其是在语音能力方面。ChatGPT能够实时响应用户输入，无需等待，能够识别用户的情绪并提供相应的反馈。此外，ChatGPT还能够以多种风格生成声音，如唱歌、机器人机械音或戏剧化的语气，并且能够分析页面上的数据图表。GPT-4o的音频输入响应时间最短为232毫秒，平均响应时间为320毫秒，与人类对话中的反应时间非常接近。

GPT-4o是一款免费的全能GPT-4模型，能够端到端地跨文本、视觉和音频处理所有输入和输出。这使得GPT-4o在用户输入后（无论是文本、语音、图像还是视频）能够直接生成音频回答，无需依赖三个独立模型工作，从而避免了信息丢失和延迟问题。GPT-4o的推出被视为OpenAI带来的“新魔法”，展示了AI技术在实时语音助手领域的突破性进展。