凌晨“激战”！谷歌亮相新模型，OpenAI 紧急甩出 GPT-4o 动动嘴就能 P 图，网友：又要感谢 DeepSeek 了

1,434 0 0

文章摘要

OpenAI 近期发布了 GPT-4o 图像生成技术，该技术被直接集成到 ChatGPT 中，标志着图像生成功能成为其原生能力。这一新功能允许用户通过自然语言指令生成图像，支持多种艺术风格，从写实照片到插图均可实现。GPT-4o 的图像生成能力显著提升，特别是在文本集成、上下文理解和多对象绑定方面，能够精准渲染图像内的文字，并执行复杂的指令。此外，该模型还支持基于先前的图像和文本进行扩展，确保多个交互之间的视觉一致性。

GPT-4o 的标记器词汇量从 GPT-4 和 GPT-3.5 的约 10 万个增加到约 20 万个，这使得非英语语言的输入效率大幅提升。例如，古吉拉特语输入的标记减少了 4.4 倍，日语减少了 1.4 倍，西班牙语减少了 1.1 倍。这一改进显著降低了非英语用户在提示文本容量上的限制，提升了多语言用户的使用体验。同时，OpenAI 还宣布了价格的大幅下调，GPT-4o 的成本仅为 GPT-3.5 的十分之一，这进一步降低了用户的使用门槛。

OpenAI 首次向免费用户提供其“最佳”模型，这一举措被认为是对市场竞争的积极回应。研究负责人 Gabriel Goh 表示，GPT-4o 采用了“全模态”技术，能够生成文本、图像、音频和视频等多种类型的数据，这使得其在多模态生成领域具有显著优势。该模型不仅在图像生成方面表现出色，还通过结合在线图像与文本内容进行训练，掌握了图像与语言之间的对应关系，从而生成高度实用、一致且具备上下文感知特征的图像。

在实际应用中，GPT-4o 展示了其强大的图像生成能力。例如，它能够生成逼真的日常生活场景，如一位女性在白板上写字的图像，甚至能够生成复杂的四格连环画。这些图像不仅细节丰富，还能够精确遵循用户的提示词，展现出模型在视觉创作中的高度灵活性。此外，GPT-4o 还支持多轮生成，用户可以通过自然对话不断优化图像内容，确保在多轮迭代中保持一致。

OpenAI 强调，GPT-4o 的图像生成功能不仅限于艺术创作，还能够生成实用性图像，如徽标、菜单、邀请函和信息图等。这一功能使得图像生成真正具备了视觉交流属性，帮助用户通过视觉效果实现顺畅的沟通。通过结合积极的后训练设计，GPT-4o 在图像生成领域取得了令人惊喜的进展，为未来的多模态生成技术奠定了坚实基础。