爆料:刚刚智谱AI发布新一代开源文生图模型

AIGC动态3小时前发布 admin
23 0 0
爆料:刚刚智谱AI发布新一代开源文生图模型

 

文章摘要


【关 键 词】 大模型开源模型多模态生成战略融资中文支持

自2025年1月DeepSeek R1发布后,全球大模型行业进入激烈竞争阶段。作为中国最早布局大模型的创业公司,智谱AI凭借技术积累于近期推出突破性成果:基于Apache2.0协议开源的文生图模型CogView4,该模型在多项核心指标上实现重大突破。

CogView4在DPG-Bench多模态评测基准中综合评分超越Stable Diffusion 3和FLUX.1,其核心技术突破体现在三个方面。首先,通过采用自研的GLM-4 Encoder替换传统T5模型,模型对中英文提示词的理解能力显著提升,可精准生成与古诗文意境匹配的图片。其次,突破性地解决了图像内嵌文字的生成难题,支持中英文字符混合排版,实测显示可准确生成包含”清明””花木兰”等汉字的图片。第三,模型支持任意长度提示词与自定义分辨率输出,为专业场景应用奠定基础。

技术突破背后是持续的资源投入与战略布局。智谱AI近期获得来自杭州的10亿元战略融资,为其技术研发提供强力支撑。在模型训练阶段,团队不仅优化文本编码器架构,还专门构建了覆盖中英文的图片训练数据集。开源生态建设方面,官方承诺将陆续集成ControlNet、ComfyUI等工具链支持。

实际测试验证了模型的多维优势。在清明踏青场景生成中,模型成功将文字元素与视觉内容融合;面对”春夏秋冬”多区域控制需求,可生成具有叙事连续性的四联场景图;在古诗文转译方面,《木兰辞》等复杂文本的视觉呈现达到人类理解水准。尽管存在个别字符生成偏差,其综合表现已超越当前主流开源模型。

此次开源行动引发行业广泛关注。继AutoGLM手机操作模拟系统后,智谱AI再次通过开源推动技术普惠,填补了中文多模态生成工具链的空白。测试者通过儿童课本配图、文化IP创作等应用场景,证实了模型的实际价值。行业观察者指出,中国企业的持续创新正在重塑全球大模型生态格局,这种开放共享的技术演进模式,为中小开发者创造了全新的创业机遇。

原文和模型


【原文链接】 阅读原文 [ 1612字 | 7分钟 ]
【原文作者】 AI产品阿颖
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...