智谱开源AI绘图CogView4，曾经的开源之光回来了。

1,857 0 0

文章摘要

近日，智谱与清华团队正式开源了AI绘图模型CogView4，成为首个支持中英文字直接生成的开源图像生成模型。该模型基于6B参数规模，支持最高2048像素分辨率的图像生成，最低可在12G显存的显卡上运行。测试显示，单张1024×1024图像生成耗时约70秒，云端与本地部署存在速度差异，官方同时提供了在线体验服务。

CogView4的核心优势体现在两方面：多语言支持与精准语义理解。在中文生成场景中，模型能根据包含中英文词汇的复杂提示词生成对应文字内容，例如“牌子上写‘起来嗨’”或电影海报标题“重生之我是韦小宝”。尽管存在中文错别字率较高、审美风格与主流商业模型存在差距等问题，但其开源属性为开发者提供了优化基座。测试案例表明，模型对细节指令的还原能力突出，如精准呈现“唐代城门商队骆驼穿行”“工业革命工厂与现代摩天楼并存”等跨时空场景，这得益于其底层架构将T5替换为GLM4带来的语义理解提升。

技术层面，CogView4支持分辨率无极调节，并计划后续集成ComfyUI、ControlNET等工具链，开放微调脚本。Apache 2.0协议允许商业应用，普通用户版预计3月13日上线。作为智谱2025“开源年”战略的首发成果，该模型被视为补全开源生态拼图的关键组件，其开源代码库包含未来技术路线图，引发行业对基座模型迭代潜力的关注。

值得关注的是，智谱在DeepSeek、阿里等厂商密集开源的竞争格局中，试图通过CogView4重拾开源领域的影响力。回溯其历史，该团队曾以ChatGLM-6B等模型奠定早期开源地位，累计获得超4万GitHub星标。当前中国AI开源生态呈现多极发展态势，厂商间的技术竞逐正加速推动行业基础能力升级，而资本层面10亿元融资的加持，为智谱后续技术突破提供了资源保障。这场由开源引发的产业变革，将持续塑造中国AI技术全球竞争力的演进路径。