中山大学与联想团队发布 ConsistentID，单张照片即可成为百变超人

AIGC动态1年前 (2024)发布 aitechtalk

2,532 0 0

文章摘要

【关键词】 图像生成、个性化肖像、面部一致性、技术挑战、ConsistentID

图像生成技术的最新进展，特别是基于扩散的文本到图像模型，已经极大地推动了个性化和定制化肖像生成的发展。这些技术在电子商务广告、个性化礼物定制和虚拟试穿等领域具有广泛的应用潜力。然而，这些模型在保持面部图像的身份一致性和生成高保真、多样化面部细节方面仍然面临挑战。

中山大学与联想团队合作，发布了ConsistentID，这是一个新的面部生成模型，它通过重构50万的多模态细粒度ID数据集来训练，支持个性化写真、性别/年龄更改和身份混淆等功能。ConsistentID的方法在眼睛、鼻子和嘴巴等面部特征中表现出卓越的身份一致性。

ConsistentID框架包括两个关键模块：多模态面部ID生成器和ID保存网络。多模态面部提示生成器由细粒度多模态特征提取器和面部ID特征提取器组成，专注于捕获详细的面部信息。ID保存网络则利用面部文本和视觉提示，通过面部注意力定位策略防止不同面部区域的ID信息混合，确保面部区域ID一致性的保存。

ConsistentID还引入了测量细粒度ID保存(FGID)数据集和细粒度的身份一致性度量，提供了一种独特而全面的评估方法来增强ConsistentID在面部细节中的训练和性能评估。

在评估方面，ConsistentID与现有的先进方法进行了比较，包括Fastcomposer、IP-Adapter、Photomaker和InstantID。结果表明，ConsistentID在使用单个参考图像进行个性化生成时，展现了更强大的能力，包括高质量生成、灵活的可编辑性和强大的身份保真度。定量评估也显示ConsistentID在多数评估指标中优于其他方法，并且在生成效率方面超过了其他基于IP-Adapter的方法。

未来工作方面，团队计划训练一个更大规模的ConsistentID模型，以提高其泛化能力和出图质感。此外，正在开发的ConsistentID模型将引入多ID训练方式，允许用户同时输入多张图片来引导出图的变化，并对模型结构进行调整以确保ID特征和控制信息的充分解耦。代码和最新进展将同步更新在GitHub仓库中。