刚刚，OpenAI发布新文生图模型，免费、逼真到难以分辨

1,418 0 0

文章摘要

OpenAI在技术直播中发布了GPT-4和Sora的重大更新，重点介绍了全新的文生图模型。该模型不仅支持文本生成图像，还具备自定义操作、连续发问、风格转换、图像PPT等实用功能。生成图像的逼真度极高，细节和文本遵循能力出色，甚至在某些方面超越了Midjourney等头部平台。通过复杂的提示词测试，模型展现了强大的文本还原和细节表现能力，生成时间仅需15秒左右。

新模型的一个亮点是其“世界知识”功能，能够根据提示词生成详细介绍特定主题的图像，例如牛顿第一定律或人体结构，非常适合教育、金融、医疗等领域的使用。用户还可以基于生成的图像继续提问，进一步细化或调整内容，例如展示手部骨骼的特写。需要注意的是，中文提示词可能导致图像中的文字介绍模糊或混乱，而使用英文提示词则效果更佳。

OpenAI联合创始人Sam Altman对这款模型给予了高度评价，认为它代表了创作自由的新高度。尽管用户可能创作出令人惊叹的作品，但也可能生成冒犯性内容，因此OpenAI强调了对社会界限的尊重，并承诺在合理范围内控制内容的生成。

新模型的核心技术是非自回归生成模块，与传统自回归方法相比，它能够一次性生成完整图像，显著提升了生成速度和质量。非自回归生成模块通过编码器-解码器架构，将文本描述转化为中间表示，并直接生成高质量图像，避免了逐像素生成的累积错误。此外，该模块在多模态融合方面表现出色，能够结合音频、图像等多种信息生成更丰富的内容。

从即日起，新的文生图模型将在ChatGPT和Sora中向所有Plus、Pro、Team和免费用户推出，企业版、教育版和API版本也将陆续发布。这一更新标志着OpenAI在图像生成技术上的重大突破，为用户提供了更高效、更灵活的创作工具。