
文章摘要
【关 键 词】 开源模型、AI绘图、技术评测、行业动态、中英支持
近日,智谱与清华团队正式开源了AI绘图模型CogView4,成为首个支持中英文字直接生成的开源图像生成模型。该模型基于6B参数规模,支持最高2048像素分辨率的图像生成,最低可在12G显存的显卡上运行。测试显示,单张1024×1024图像生成耗时约70秒,云端与本地部署存在速度差异,官方同时提供了在线体验服务。
CogView4的核心优势体现在两方面:多语言支持与精准语义理解。在中文生成场景中,模型能根据包含中英文词汇的复杂提示词生成对应文字内容,例如“牌子上写‘起来嗨’”或电影海报标题“重生之我是韦小宝”。尽管存在中文错别字率较高、审美风格与主流商业模型存在差距等问题,但其开源属性为开发者提供了优化基座。测试案例表明,模型对细节指令的还原能力突出,如精准呈现“唐代城门商队骆驼穿行”“工业革命工厂与现代摩天楼并存”等跨时空场景,这得益于其底层架构将T5替换为GLM4带来的语义理解提升。
技术层面,CogView4支持分辨率无极调节,并计划后续集成ComfyUI、ControlNET等工具链,开放微调脚本。Apache 2.0协议允许商业应用,普通用户版预计3月13日上线。作为智谱2025“开源年”战略的首发成果,该模型被视为补全开源生态拼图的关键组件,其开源代码库包含未来技术路线图,引发行业对基座模型迭代潜力的关注。
值得关注的是,智谱在DeepSeek、阿里等厂商密集开源的竞争格局中,试图通过CogView4重拾开源领域的影响力。回溯其历史,该团队曾以ChatGLM-6B等模型奠定早期开源地位,累计获得超4万GitHub星标。当前中国AI开源生态呈现多极发展态势,厂商间的技术竞逐正加速推动行业基础能力升级,而资本层面10亿元融资的加持,为智谱后续技术突破提供了资源保障。这场由开源引发的产业变革,将持续塑造中国AI技术全球竞争力的演进路径。
原文和模型
【原文链接】 阅读原文 [ 1864字 | 8分钟 ]
【原文作者】 数字生命卡兹克
【摘要模型】 deepseek-r1
【摘要评分】 ★★★☆☆