AI画连环画角色更一致了!人物之间的复杂互动也能处理|中山大学&联想团队出品

AIGC动态6个月前发布 QbitAI
1,041 0 0
AI画连环画角色更一致了!人物之间的复杂互动也能处理|中山大学&联想团队出品

 

文章摘要


【关 键 词】 多智能体图像生成AI性能多轮交互主题管理

AutoStudio是一种多智能体协同框架,由中山大学和联想团队联合提出,旨在提高AI在多轮交互式图像生成中的性能。该框架无需训练,通过三个基于大型语言模型的智能体处理交互,并利用基于扩散模型的Drawer生成高质量图像。在实验中,AutoStudio在定量和定性评估中均优于现有方法。

AutoStudio框架包含四个定制智能体,能够即时响应用户需求,实现多轮生成的多样化需求。具体来说,包括主题管理器、布局生成器、监督员和绘制器。主题管理器负责解释对话并识别主题,布局生成器生成主题的边界框,监督员提供布局改进建议,绘制器基于改进布局生成图像。

为了解决多ID绑定任务中主体丢失和融合的问题,研究人员引入了主体初始化生成过程,通过提取器提取特征并进行局部替换。此外,AutoStudio采用了并行UNet(P-UNet)架构,利用两个并行的交叉注意力模块增强文本和图像嵌入的潜在主题特征。

研究人员在CMIGBench上对AutoStudio进行了全面评估,该基准模型基于故事生成和多轮编辑,包含8000个多轮脚本对话。评估结果显示,AutoStudio在所有指标上均优于之前的方法,包括平均弗雷谢特起始距离(aFID)、平均字符-字符相似度(aCCS)和平均文本-图像相似度(aTIS)。

AutoStudio能够理解用户的自然语言指令,并生成主题一致的图像。相比之下,其他方法如Theatergen、MiniGemini、Intelligent Grimm和StoryDiffusion在处理复杂互动和保持主体一致性方面存在局限性。

AutoStudio的研究论文已在arXiv上发表,项目主页提供了更多详细信息。这项研究为AI在多轮交互式图像生成领域的发展提供了新的思路和方法。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1952字 | 8分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...