文章摘要
【关 键 词】 文生图模型、开源技术、AI创新、图像生成、中文支持
快手公司开发的文生图大模型——可图(Kolors)近日宣布开源,迅速在社交媒体上引起广泛关注。该模型不仅能够绘制万物,还能书写汉字,展现了对中国文化的深刻理解。在性能上,可图(Kolors)已经超越了现有的开源模型如SD3,并与闭源商业模型Midjourney-v6相当。其生成效果具有摄影级别的画质质感,并且支持英文和中文汉字的生成。
在世界人工智能大会上,快手宣布了可图(Kolors)的开源,包括模型权重、完整代码和技术报告,目前已在Huggingface平台和GitHub上线,供个人开发者免费使用,获得登记许可即可商用。开源后,可图(Kolors)在Github上迅速获得了2k stars,并在Huggingface模型Trending榜首,下载次数上万。
可图(Kolors)的开源引起了开源社区的热烈反响,许多开发者在实际测试和体验后给予了极高的评价。在智源FlagEval文生图模型第三方评测榜单中,可图(Kolors)以主观综合评分75.23分的成绩排名全球第二,仅次于闭源的DALL-E 3。在50位人类图像专家评估中,可图(Kolors)也表现出色,超越了一众开源模型,与Midjourney-v6性能相当,并且在视觉吸引力方面显著领先。
可图(Kolors)采用了隐空间扩散模型,并创新地使用了大语言模型进行文本表征,具备了复杂长文本理解能力。通过两阶段渐进训练策略(概念学习和美感提升),在图像美感和质量上达到了国际领先水平。此外,可图(Kolors)还支持生成中文文字,是第一个原生支持中文文字生成的文生图模型。
可图(Kolors)的开源展示了快手在AI技术领域的开放态度和技术能力。快手希望通过开源来推动文生图大模型社区的发展,为企业与开发者提供强大的工具来开发自己的应用和产品。随着越来越多的企业和开发者开始使用可图(Kolors),我们也可以期待整个文生图大模型社区将迎来新的发展契机。
目前,可图大模型的各项功能已经集成至可灵AI中,普通用户可以直接通过可灵AI官方网站和可图大模型微信小程序免费使用各项功能。这将进一步提升内容创作的效率和质量,为品牌和个人IP的打造提供新的可能性。
原文和模型
【原文链接】 阅读原文 [ 3188字 | 13分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★