
文章摘要
OpenAI 近期发布了 GPT-4o 图像生成技术,该技术被直接集成到 ChatGPT 中,标志着图像生成功能成为其原生能力。这一新功能允许用户通过自然语言指令生成图像,支持多种艺术风格,从写实照片到插图均可实现。GPT-4o 的图像生成能力显著提升,特别是在文本集成、上下文理解和多对象绑定方面,能够精准渲染图像内的文字,并执行复杂的指令。此外,该模型还支持基于先前的图像和文本进行扩展,确保多个交互之间的视觉一致性。
GPT-4o 的标记器词汇量从 GPT-4 和 GPT-3.5 的约 10 万个增加到约 20 万个,这使得非英语语言的输入效率大幅提升。例如,古吉拉特语输入的标记减少了 4.4 倍,日语减少了 1.4 倍,西班牙语减少了 1.1 倍。这一改进显著降低了非英语用户在提示文本容量上的限制,提升了多语言用户的使用体验。同时,OpenAI 还宣布了价格的大幅下调,GPT-4o 的成本仅为 GPT-3.5 的十分之一,这进一步降低了用户的使用门槛。
OpenAI 首次向免费用户提供其“最佳”模型,这一举措被认为是对市场竞争的积极回应。研究负责人 Gabriel Goh 表示,GPT-4o 采用了“全模态”技术,能够生成文本、图像、音频和视频等多种类型的数据,这使得其在多模态生成领域具有显著优势。该模型不仅在图像生成方面表现出色,还通过结合在线图像与文本内容进行训练,掌握了图像与语言之间的对应关系,从而生成高度实用、一致且具备上下文感知特征的图像。
在实际应用中,GPT-4o 展示了其强大的图像生成能力。例如,它能够生成逼真的日常生活场景,如一位女性在白板上写字的图像,甚至能够生成复杂的四格连环画。这些图像不仅细节丰富,还能够精确遵循用户的提示词,展现出模型在视觉创作中的高度灵活性。此外,GPT-4o 还支持多轮生成,用户可以通过自然对话不断优化图像内容,确保在多轮迭代中保持一致。
OpenAI 强调,GPT-4o 的图像生成功能不仅限于艺术创作,还能够生成实用性图像,如徽标、菜单、邀请函和信息图等。这一功能使得图像生成真正具备了视觉交流属性,帮助用户通过视觉效果实现顺畅的沟通。通过结合积极的后训练设计,GPT-4o 在图像生成领域取得了令人惊喜的进展,为未来的多模态生成技术奠定了坚实基础。
原文和模型
【原文链接】 阅读原文 [ 4475字 | 18分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★