吉卜力只是开胃小菜,GPT-4o一键抠图「换装换背景」!推理也初步显现

吉卜力只是开胃小菜,GPT-4o一键抠图「换装换背景」!推理也初步显现

 

文章摘要


【关 键 词】 GPT-4o图像生成推理能力模型合并画笔编辑

OpenAI的GPT-4o模型近期成为AI领域的热门话题,尤其是在图像生成和推理能力方面的表现引发了广泛关注。通过GPT-4o,用户能够生成吉卜力风格的图像和视频,甚至将经典影视作品如《甄嬛传》和《疯狂的麦克斯》转化为动画版本,播放量迅速突破20万。尽管在口型和神情等细节上仍有改进空间,但人物形象的还原度极高,展现了模型在图像生成上的强大能力。

除了图像生成,GPT-4o还隐藏了一个未被官方提及但极为实用的功能——画笔编辑。用户只需在生成的图片上涂抹需要修改的部分,并输入相关指令,即可实现图像的局部调整。例如,移除外套、更换背景或添加装饰物等操作都能轻松完成。虽然修改后的图像与原图在背景和细节上存在一定差异,但整体效果依然保持了较高的完整性和一致性。

在图像生成之外,GPT-4o的推理能力也引发了热议。用户发现模型能够显示推理时间和思维链过程,这一现象被解读为OpenAI可能在尝试合并推理与非推理模型。此前,OpenAI首席执行官奥特曼曾提到,公司计划统一o系列与GPT系列模型,构建能够自主判断任务需求的智能系统。这一发现似乎印证了OpenAI在模型整合方面的进展。

此外,用户还分享了2024年底的截图,表明GPT-4o的推理能力可能已经持续测试了至少六个月。随着越来越多用户观察到模型在推理方面的表现,关于GPT-5的猜测也逐渐浮出水面。有观点认为,模型版本之间的界限正在迅速模糊,GPT-5的启动可能已经进入实时观察阶段。尽管部分用户怀疑这些现象可能是bug,但无论如何,它们都揭示了AI技术在推理和图像生成领域的快速演进。

总的来说,GPT-4o不仅在图像生成上展现了强大的创造力,其推理能力的提升也预示着AI模型在多功能整合方面的未来发展方向。随着技术的不断突破,OpenAI的模型有望在更多复杂任务中实现自主判断和高效执行。

原文和模型


【原文链接】 阅读原文 [ 1497字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...