吉卜力只是开胃小菜，GPT-4o一键抠图「换装换背景」！推理也初步显现

AIGC动态6个月前发布 almosthuman2014

1,198 0 0

文章摘要

OpenAI的GPT-4o模型近期成为AI领域的热门话题，尤其是在图像生成和推理能力方面的表现引发了广泛关注。通过GPT-4o，用户能够生成吉卜力风格的图像和视频，甚至将经典影视作品如《甄嬛传》和《疯狂的麦克斯》转化为动画版本，播放量迅速突破20万。尽管在口型和神情等细节上仍有改进空间，但人物形象的还原度极高，展现了模型在图像生成上的强大能力。

除了图像生成，GPT-4o还隐藏了一个未被官方提及但极为实用的功能——画笔编辑。用户只需在生成的图片上涂抹需要修改的部分，并输入相关指令，即可实现图像的局部调整。例如，移除外套、更换背景或添加装饰物等操作都能轻松完成。虽然修改后的图像与原图在背景和细节上存在一定差异，但整体效果依然保持了较高的完整性和一致性。

在图像生成之外，GPT-4o的推理能力也引发了热议。用户发现模型能够显示推理时间和思维链过程，这一现象被解读为OpenAI可能在尝试合并推理与非推理模型。此前，OpenAI首席执行官奥特曼曾提到，公司计划统一o系列与GPT系列模型，构建能够自主判断任务需求的智能系统。这一发现似乎印证了OpenAI在模型整合方面的进展。

此外，用户还分享了2024年底的截图，表明GPT-4o的推理能力可能已经持续测试了至少六个月。随着越来越多用户观察到模型在推理方面的表现，关于GPT-5的猜测也逐渐浮出水面。有观点认为，模型版本之间的界限正在迅速模糊，GPT-5的启动可能已经进入实时观察阶段。尽管部分用户怀疑这些现象可能是bug，但无论如何，它们都揭示了AI技术在推理和图像生成领域的快速演进。

总的来说，GPT-4o不仅在图像生成上展现了强大的创造力，其推理能力的提升也预示着AI模型在多功能整合方面的未来发展方向。随着技术的不断突破，OpenAI的模型有望在更多复杂任务中实现自主判断和高效执行。