文章摘要
【关 键 词】 GPT-4o、语音功能、应用案例、安全测试、价格策略
OpenAI的GPT-4o语音功能已经进入灰度测试阶段,部分ChatGPT Plus用户已经体验到了这一新功能。GPT-4o语音模式以其自然、实时的对话能力,能够感知并回应用户情绪,预计将在秋季面向所有ChatGPT Plus用户开放。此外,GPT-4o的输出token数量也实现了显著增长,从4000个增至64000个,意味着用户可以一次性获取更多内容,如长篇电影剧本。
GPT-4o的语音功能经过了安全性和质量的严格测试,OpenAI与100多名红队人员对45种语言进行了测试。为了保护隐私,模型仅使用4种预设声音,并通过系统防止其他声音的输出。同时,团队还设置了内容过滤,以阻止生成暴力或版权相关内容。OpenAI计划在8月初发布一份详细报告,介绍GPT-4o的能力、局限性和安全评估。
网友们分享了GPT-4o语音模式的多种应用案例,如作为外语教练帮助练习口语、讲笑话、学猫叫等。测试显示,GPT-4o能够快速回答问题,几乎没有延迟,并且能够模仿不同的声音和口音。此外,GPT-4o还能够以生动的语言讲故事,甚至有网友利用其视觉和语音模式进行游戏翻译和通关。
OpenAI还宣布推出了支持更大token输出的GPT-4o Alpha版本,每次请求最多支持64K token输出,相当于200页小说。这一新模型的价格为每百万输入token 6美元,每百万输出token 18美元。尽管价格较高,但长输出主要用于数据转换用例,如文档翻译或提取结构化数据。
GPT-4o自推出以来,提供了最大128K的上下文窗口。在保持整体上下文窗口不变的情况下,OpenAI将输出token数量从4000增加到64000。这意味着用户可以在一次交互中以124,000个token作为输入,得到更多的输出token。这一调整是基于用户反馈,需要更长输出内容以满足用例。
然而,市面上其他模型的输出长度已经达到百万级别,而OpenAI的输出长度相对较短。这给开发者带来了选择难题:要么牺牲输入长度以获得更长的输出,要么牺牲输出长度以获得更多的输入。开发者需要根据自己的需求和偏好来权衡这一问题。
原文和模型
【原文链接】 阅读原文 [ 3523字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★