不玩“期货”的快手接棒Stability AI，国产之光可图大模型Kolors领跑开源生态

AIGC动态1年前 (2024)发布 Si-Planet

2,963 0 0

不玩“期货”的快手接棒Stability AI，国产之光可图大模型Kolors领跑开源生态

文章摘要

快手公司开发的文生图大模型——可图（Kolors）近日宣布开源，迅速在社交媒体上引起广泛关注。该模型不仅能够绘制万物，还能书写汉字，展现了对中国文化的深刻理解。在性能上，可图（Kolors）已经超越了现有的开源模型如SD3，并与闭源商业模型Midjourney-v6相当。其生成效果具有摄影级别的画质质感，并且支持英文和中文汉字的生成。

在世界人工智能大会上，快手宣布了可图（Kolors）的开源，包括模型权重、完整代码和技术报告，目前已在Huggingface平台和GitHub上线，供个人开发者免费使用，获得登记许可即可商用。开源后，可图（Kolors）在Github上迅速获得了2k stars，并在Huggingface模型Trending榜首，下载次数上万。

可图（Kolors）的开源引起了开源社区的热烈反响，许多开发者在实际测试和体验后给予了极高的评价。在智源FlagEval文生图模型第三方评测榜单中，可图（Kolors）以主观综合评分75.23分的成绩排名全球第二，仅次于闭源的DALL-E 3。在50位人类图像专家评估中，可图（Kolors）也表现出色，超越了一众开源模型，与Midjourney-v6性能相当，并且在视觉吸引力方面显著领先。

可图（Kolors）采用了隐空间扩散模型，并创新地使用了大语言模型进行文本表征，具备了复杂长文本理解能力。通过两阶段渐进训练策略（概念学习和美感提升），在图像美感和质量上达到了国际领先水平。此外，可图（Kolors）还支持生成中文文字，是第一个原生支持中文文字生成的文生图模型。

可图（Kolors）的开源展示了快手在AI技术领域的开放态度和技术能力。快手希望通过开源来推动文生图大模型社区的发展，为企业与开发者提供强大的工具来开发自己的应用和产品。随着越来越多的企业和开发者开始使用可图（Kolors），我们也可以期待整个文生图大模型社区将迎来新的发展契机。

目前，可图大模型的各项功能已经集成至可灵AI中，普通用户可以直接通过可灵AI官方网站和可图大模型微信小程序免费使用各项功能。这将进一步提升内容创作的效率和质量，为品牌和个人IP的打造提供新的可能性。