免费GPT-4o来袭,音频视觉文本实现「大一统」

AIGC动态7个月前发布 aitechtalk
1,205 0 0
免费GPT-4o来袭,音频视觉文本实现「大一统」

 

文章摘要


【关 键 词】 OpenAIGPT-4oChatGPTAI技术实时语音助手

在北京时间5月14日凌晨1点,OpenAI召开了首场春季发布会,由CTO Mira Murati主持。在短短30分钟内,Mira Murati和团队展示了最新旗舰模型GPT-4o及其基于GPT-4o的ChatGPT,两者均免费提供。此前有传言称OpenAI将推出AI搜索引擎,与谷歌的I/O开发者大会竞争,但Sam Altman在社交媒体上澄清,他们将展示的是一些令人期待的创新成果,而非GPT-5或搜索引擎。

发布会上,Mira Murati宣布了ChatGPT的桌面版本和新用户界面,并重点介绍了GPT-4o。GPT-4o搭载的ChatGPT在不同任务中表现出色,尤其是在语音能力方面。ChatGPT能够实时响应用户输入,无需等待,能够识别用户的情绪并提供相应的反馈。此外,ChatGPT还能够以多种风格生成声音,如唱歌、机器人机械音或戏剧化的语气,并且能够分析页面上的数据图表。GPT-4o的音频输入响应时间最短为232毫秒,平均响应时间为320毫秒,与人类对话中的反应时间非常接近。

GPT-4o是一款免费的全能GPT-4模型,能够端到端地跨文本、视觉和音频处理所有输入和输出。这使得GPT-4o在用户输入后(无论是文本、语音、图像还是视频)能够直接生成音频回答,无需依赖三个独立模型工作,从而避免了信息丢失和延迟问题。GPT-4o的推出被视为OpenAI带来的“新魔法”,展示了AI技术实时语音助手领域的突破性进展。

原文和模型


【原文链接】 阅读原文 [ 3056字 | 13分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...