GPT-4o版「Her」终于来了！讲笑话、学猫叫，AI女友能有多撩人？

AIGC动态1年前 (2024)发布 AIera

2,499 0 0

文章摘要

OpenAI的GPT-4o 语音功能已经进入灰度测试阶段，部分ChatGPT Plus用户已经体验到了这一新功能。GPT-4o语音模式以其自然、实时的对话能力，能够感知并回应用户情绪，预计将在秋季面向所有ChatGPT Plus用户开放。此外，GPT-4o的输出token数量也实现了显著增长，从4000个增至64000个，意味着用户可以一次性获取更多内容，如长篇电影剧本。

GPT-4o的语音功能经过了安全性和质量的严格测试，OpenAI与100多名红队人员对45种语言进行了测试。为了保护隐私，模型仅使用4种预设声音，并通过系统防止其他声音的输出。同时，团队还设置了内容过滤，以阻止生成暴力或版权相关内容。OpenAI计划在8月初发布一份详细报告，介绍GPT-4o的能力、局限性和安全评估。

网友们分享了GPT-4o语音模式的多种应用案例，如作为外语教练帮助练习口语、讲笑话、学猫叫等。测试显示，GPT-4o能够快速回答问题，几乎没有延迟，并且能够模仿不同的声音和口音。此外，GPT-4o还能够以生动的语言讲故事，甚至有网友利用其视觉和语音模式进行游戏翻译和通关。

OpenAI还宣布推出了支持更大token输出的GPT-4o Alpha版本，每次请求最多支持64K token输出，相当于200页小说。这一新模型的价格为每百万输入token 6美元，每百万输出token 18美元。尽管价格较高，但长输出主要用于数据转换用例，如文档翻译或提取结构化数据。

GPT-4o自推出以来，提供了最大128K的上下文窗口。在保持整体上下文窗口不变的情况下，OpenAI将输出token数量从4000增加到64000。这意味着用户可以在一次交互中以124,000个token作为输入，得到更多的输出token。这一调整是基于用户反馈，需要更长输出内容以满足用例。

然而，市面上其他模型的输出长度已经达到百万级别，而OpenAI的输出长度相对较短。这给开发者带来了选择难题：要么牺牲输入长度以获得更长的输出，要么牺牲输出长度以获得更多的输入。开发者需要根据自己的需求和偏好来权衡这一问题。