「开源版GPT-4o」来了！这个17B国产模型生图效果比肩4o，还可商用

AI-Agent1年前 (2025)发布 almosthuman2014

3,355 0 0

文章摘要

GPT-4o 的推出引发了广泛关注，其强大的图像生成和编辑能力吸引了大量用户。然而，出图速度慢和次数限制等问题使得许多用户开始寻找替代方案。在这一背景下，HiDream-I1 作为一款开源文生图模型，迅速崭露头角。该模型由国内公司智象未来开发，拥有 17B 参数，并在 AI 基准测试平台 Artificial Analysis 的竞技场中表现优异，成为首个登顶该榜单的中国自研生成式 AI 模型。

HiDream-I1 的生成效果与 GPT-4o 相当，甚至在某些方面更为出色。通过对比测试，HiDream-I1 在真实感、细腻度和指令遵循能力上表现出色，尤其是在处理复杂提示词时，能够生成符合现实世界规律的图像。例如，在生成“一匹马在海面上奔驰”的场景时，HiDream-I1 不仅准确描绘了水花和反射，还通过大气透视增强了图像的深度感。此外，HiDream-I1 在色彩呈现和细节处理上也优于其他模型，如 Flux，其生成的图像在纹理、背景细节和物体层次感上更为丰富。

HiDream-I1 的成功得益于其独特的技术架构。该模型采用了 Sparse Diffusion Transformer（Sparse DiT）架构，结合了 Sparse Mixture-of-Expert（MoE）技术，使得模型能够高效处理不同类型的文本输入。此外，研究者在扩散模型蒸馏中融入了生成对抗学习（GAN），进一步提升了图像的真实感和清晰度。这种技术改进不仅提高了模型的性能，还降低了运算开销，使得 HiDream-I1 在性价比上具有优势。

HiDream-I1 的开源特性使其在社区中迅速获得了广泛关注。在 HuggingFace Trending 榜单上，该模型飙升到第二名，显示出其受欢迎程度。此外，智象未来还计划开源另一款模型 HiDream-E1，该模型支持交互式图像编辑，类似于 GPT-4o 的“言出法随”功能。这一系列开源模型的推出，填补了开源版 GPT-4o 的空白，为开发者和公司提供了更多选择。

智象未来在模型改进和产品开发中始终关注真实感、指令遵循和叙事性这三大属性。通过不断优化模型，他们不仅提升了生成图像的质量，还为用户提供了更便捷的创作工具。例如，Vivago 平台支持在生成图像的基础上进行视频制作等二次创作，进一步扩展了模型的应用场景。未来，智象未来还将发布多模态 Agent 产品，允许用户通过对话聊天形式生成和编辑图片/视频，进一步降低创作门槛。

总的来说，HiDream-I1 的成功不仅展示了中国在生成式 AI 领域的研发实力，也为开源社区和开发者提供了强大的工具。随着 HiDream-E1 的即将开源，智象未来有望在图像生成和编辑领域继续引领创新，推动 AI 技术的广泛应用。