ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计
模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★☆☆
文章摘要
【关 键 词】 AI图像创建、潜在透明度、斯坦福大学、大规模预训练、透明图层
斯坦福大学的研究者提出了一种名为“潜在透明度”的方法,使得大规模预训练的潜在扩散模型能够生成透明图像以及多个透明图层。
这一进展与市场对分层内容生成的需求形成鲜明对比,因为大多数视觉内容编辑软件和工作流程都依赖于透明或分层元素。
研究者通过人机交互的方式训练模型并收集数据,创建了一个包含100万张透明图像的数据集,这些图像涵盖多种内容主题和风格,可用于多种应用,如背景/前景条件生成、结构引导生成、风格迁移等。
实验结果显示,用户普遍更喜欢这种方法生成的透明内容,其质量甚至可与商业网站如Adobe Stock的搜索结果相媲美。
研究的作者Lvmin Zhang和Maneesh Agrawala,其中Lvmin Zhang也是ControlNet的作者。
该研究不仅解决了抠图问题,还为动画和视频制作的核心工序提供了支持。
研究的目标是为大规模潜在扩散模型如Stable Diffusion添加透明度支持,通过调整潜在空间以支持透明度,同时保留原始的潜在分布。
研究者还展示了如何使用注意力共享和LoRA将基础模型扩展为多图层模型,并提出了几种替代架构以实现更复杂的工作流程。
训练数据集包括基础数据集和多图层数据集,训练设备为4×A100 80G NV-link,训练时间为一周。
实验结果展示了模型在生成原生透明图像、泛化到不同场景、条件层生成、迭代生成和可控生成方面的能力。
原文信息
【原文链接】 阅读原文
【阅读预估】 1814 / 8分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...