AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

AI画家的「滑铁卢」:为什么冰可乐不愿意住进茶杯里?

 

文章摘要


【关 键 词】 AI图像生成文本图像不对齐LLMs系统MoCE方法AI技术突破

上海交通大学博士研究生赵峻图和长聘教轨助理教授王德泉的研究团队在论文《Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models》中探讨了AI图像生成领域中的一个新问题:文本图像不对齐问题,特别是包含隐藏变量的不对齐问题(Latent Concept Misalignment,简称LC-Mis)。该论文即将在2024年10月的第18届欧洲计算机视觉大会(ECCV)上发表。

研究团队以“茶杯中的冰可乐”为例,指出即使使用最先进的AI画家(如Dall・E 3),也无法准确构建这一场景,而是倾向于画出装满冰可乐的透明玻璃杯。这表明AI在理解文本和生成图像时存在偏差,即隐藏变量“透明玻璃杯”替代了“茶杯”。

为了解决这一问题,研究团队设计了一个基于大语言模型(LLMs)的系统,利用LLMs生成与“茶杯中的冰可乐”类似问题的概念对,并通过人工评估的方式对生成的图像进行评级。他们提出了一种名为Mixture of Concept Experts (MoCE)的方法,将顺序作画的规律融入到diffusion models的多步采样过程中,成功地找回了图像中的茶杯。

MoCE方法在实验中显著降低了LC-Mis概念对的占比,并在一定程度上超越了需要大量数据标注成本的Dall・E 3(2023年10月版本)。此外,研究团队还发现现有的自动化评价指标在评估“茶杯中的冰可乐”等新问题时存在缺陷,可能无法准确识别出茶杯中的冰可乐。

这项研究为理解和解决AI图像生成中的文本图像不对齐问题提供了新的视角和方法。研究团队将继续深入研究生成式AI技术,推动AI更好地满足人类需求,并期待在理解和再现人类创造力方面取得突破。

此外,8月6日的《AIGC 体验派》第六期将邀请豆包文生图技术专家张亮和NVIDIA解决方案架构师赵一嘉,探讨文生图背后的技术链路,包括如何实现更强的图文匹配、生成更具美感的图像以及高效部署文生图模型等话题。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 2354字 | 10分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...