试了试 ChatGPT的图片生成功能，我佩服的无话可说

1,517 0 0

文章摘要

【关键词】 ChatGPT、图像生成、GPT-4o、OpenAI、多模态

今天凌晨，ChatGPT正式发布了基于GPT-4o模型的原生图像生成功能，标志着其在图片处理能力方面的一次重要升级。这一功能的推出，不仅展示了OpenAI在多模态推理技术上的进步，也体现了其在AI技术普及和开放策略上的转变。

GPT-4o模型早先发布时，OpenAI就强调了其强大的多模态推理能力，能够处理语音、文本和视觉信息。然而，在此之前，ChatGPT仅能生成和编辑文本，无法生成图像。此次更新，使得ChatGPT在图像生成领域迈出了重要一步。这一功能的推出，部分受到了DeepSeek的影响，OpenAI逐步将重要功能开放给更多免费用户，这是其今年策略变化的一部分，旨在让AI技术更加普适和开放。

尽管图像生成功能对用户来说并不陌生，因为谷歌此前已为其旗舰模型Gemini 2.0 Flash推出了实验性原生图像输出，但GPT-4o的图像生成功能在ChatGPT中的正式替代DALL·E3，仍然具有重要意义。相较于DALL·E3，GPT-4o需要更长的“思考”时间，但OpenAI表示，这可以生成更准确、细节更丰富的图像。此外，GPT-4o还具备编辑现有图像的能力，包括对人物图像进行变形或“修复”细节，如前景和背景中的物体。

为了实现这一新功能，OpenAI透露其训练GPT-4o使用了“公开可用的数据”，以及来自Shutterstock等合作伙伴的专有数据。在输出方面，OpenAI承诺尊重艺术家的权利，并采取策略防止生成直接模仿在世艺术家作品的图像。从目前的效果来看，OpenAI的图像生成能力远超Google，生成的图像在逼真度和细节处理上表现出色。

GPT-4o图像生成功能从今天开始作为ChatGPT中的默认图像生成器向Plus、Pro、Team和Free用户推出，Enterprise和Edu用户即将获得访问权限。此外，该功能也可以在Sora中使用。对于仍在使用DALL·E的用户，它仍然可以通过专用的DALL·E GPT访问。目前，这项功能已经在ChatGPT和Sora中向所有付费和免费用户推出，API也即将上线。

GPT-4o的图像生成功能不仅展示了OpenAI在多模态技术上的突破，也体现了其在AI技术普及和开放策略上的转变。这一功能的推出，无疑将进一步提升ChatGPT在图像生成领域的竞争力，并为用户带来更加丰富和逼真的图像生成体验。