爆料：刚刚智谱AI发布新一代开源文生图模型

1,423 0 0

文章摘要

自2025年1月DeepSeek R1发布后，全球大模型行业进入激烈竞争阶段。作为中国最早布局大模型的创业公司，智谱AI凭借技术积累于近期推出突破性成果：基于Apache2.0协议开源的文生图模型CogView4，该模型在多项核心指标上实现重大突破。

CogView4在DPG-Bench多模态评测基准中综合评分超越Stable Diffusion 3和FLUX.1，其核心技术突破体现在三个方面。首先，通过采用自研的GLM-4 Encoder替换传统T5模型，模型对中英文提示词的理解能力显著提升，可精准生成与古诗文意境匹配的图片。其次，突破性地解决了图像内嵌文字的生成难题，支持中英文字符混合排版，实测显示可准确生成包含”清明””花木兰”等汉字的图片。第三，模型支持任意长度提示词与自定义分辨率输出，为专业场景应用奠定基础。

技术突破背后是持续的资源投入与战略布局。智谱AI近期获得来自杭州的10亿元战略融资，为其技术研发提供强力支撑。在模型训练阶段，团队不仅优化文本编码器架构，还专门构建了覆盖中英文的图片训练数据集。开源生态建设方面，官方承诺将陆续集成ControlNet、ComfyUI等工具链支持。

实际测试验证了模型的多维优势。在清明踏青场景生成中，模型成功将文字元素与视觉内容融合；面对”春夏秋冬”多区域控制需求，可生成具有叙事连续性的四联场景图；在古诗文转译方面，《木兰辞》等复杂文本的视觉呈现达到人类理解水准。尽管存在个别字符生成偏差，其综合表现已超越当前主流开源模型。

此次开源行动引发行业广泛关注。继AutoGLM手机操作模拟系统后，智谱AI再次通过开源推动技术普惠，填补了中文多模态生成工具链的空白。测试者通过儿童课本配图、文化IP创作等应用场景，证实了模型的实际价值。行业观察者指出，中国企业的持续创新正在重塑全球大模型生态格局，这种开放共享的技术演进模式，为中小开发者创造了全新的创业机遇。