「开源版GPT-4o」来了!这个17B国产模型生图效果比肩4o,还可商用

文章摘要
【关 键 词】 GPT-4o、文生图、开源模型、图像生成、基准测试
GPT-4o 的推出引发了广泛关注,其强大的图像生成和编辑能力吸引了大量用户。然而,出图速度慢和次数限制等问题使得许多用户开始寻找替代方案。在这一背景下,HiDream-I1 作为一款开源文生图模型,迅速崭露头角。该模型由国内公司智象未来开发,拥有 17B 参数,并在 AI 基准测试平台 Artificial Analysis 的竞技场中表现优异,成为首个登顶该榜单的中国自研生成式 AI 模型。
HiDream-I1 的生成效果与 GPT-4o 相当,甚至在某些方面更为出色。通过对比测试,HiDream-I1 在真实感、细腻度和指令遵循能力上表现出色,尤其是在处理复杂提示词时,能够生成符合现实世界规律的图像。例如,在生成“一匹马在海面上奔驰”的场景时,HiDream-I1 不仅准确描绘了水花和反射,还通过大气透视增强了图像的深度感。此外,HiDream-I1 在色彩呈现和细节处理上也优于其他模型,如 Flux,其生成的图像在纹理、背景细节和物体层次感上更为丰富。
HiDream-I1 的成功得益于其独特的技术架构。该模型采用了 Sparse Diffusion Transformer(Sparse DiT)架构,结合了 Sparse Mixture-of-Expert(MoE)技术,使得模型能够高效处理不同类型的文本输入。此外,研究者在扩散模型蒸馏中融入了生成对抗学习(GAN),进一步提升了图像的真实感和清晰度。这种技术改进不仅提高了模型的性能,还降低了运算开销,使得 HiDream-I1 在性价比上具有优势。
HiDream-I1 的开源特性使其在社区中迅速获得了广泛关注。在 HuggingFace Trending 榜单上,该模型飙升到第二名,显示出其受欢迎程度。此外,智象未来还计划开源另一款模型 HiDream-E1,该模型支持交互式图像编辑,类似于 GPT-4o 的“言出法随”功能。这一系列开源模型的推出,填补了开源版 GPT-4o 的空白,为开发者和公司提供了更多选择。
智象未来在模型改进和产品开发中始终关注真实感、指令遵循和叙事性这三大属性。通过不断优化模型,他们不仅提升了生成图像的质量,还为用户提供了更便捷的创作工具。例如,Vivago 平台支持在生成图像的基础上进行视频制作等二次创作,进一步扩展了模型的应用场景。未来,智象未来还将发布多模态 Agent 产品,允许用户通过对话聊天形式生成和编辑图片/视频,进一步降低创作门槛。
总的来说,HiDream-I1 的成功不仅展示了中国在生成式 AI 领域的研发实力,也为开源社区和开发者提供了强大的工具。随着 HiDream-E1 的即将开源,智象未来有望在图像生成和编辑领域继续引领创新,推动 AI 技术的广泛应用。
原文和模型
【原文链接】 阅读原文 [ 3012字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★