ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

AIGC动态1年前 (2024)发布 almosthuman2014

2,734 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

文章摘要

【关键词】 AI图像创建、潜在透明度、斯坦福大学、大规模预训练、透明图层

斯坦福大学的研究者提出了一种名为“潜在透明度”的方法，使得大规模预训练的潜在扩散模型能够生成透明图像以及多个透明图层。

这一进展与市场对分层内容生成的需求形成鲜明对比，因为大多数视觉内容编辑软件和工作流程都依赖于透明或分层元素。

研究者通过人机交互的方式训练模型并收集数据，创建了一个包含100万张透明图像的数据集，这些图像涵盖多种内容主题和风格，可用于多种应用，如背景/前景条件生成、结构引导生成、风格迁移等。

实验结果显示，用户普遍更喜欢这种方法生成的透明内容，其质量甚至可与商业网站如Adobe Stock的搜索结果相媲美。

研究的作者Lvmin Zhang和Maneesh Agrawala，其中Lvmin Zhang也是ControlNet的作者。

该研究不仅解决了抠图问题，还为动画和视频制作的核心工序提供了支持。

研究的目标是为大规模潜在扩散模型如Stable Diffusion添加透明度支持，通过调整潜在空间以支持透明度，同时保留原始的潜在分布。

研究者还展示了如何使用注意力共享和LoRA将基础模型扩展为多图层模型，并提出了几种替代架构以实现更复杂的工作流程。

训练数据集包括基础数据集和多图层数据集，训练设备为4×A100 80G NV-link，训练时间为一周。

实验结果展示了模型在生成原生透明图像、泛化到不同场景、条件层生成、迭代生成和可控生成方面的能力。

原文信息

【原文链接】 阅读原文
【阅读预估】 1814 / 8分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台

# AIGC动态 # 图像生成 # 大模型 # 视频生成 # AI图像创建 # moonshot-v1-32k # 大规模预训练 # 斯坦福大学 # 月之暗面 # 机器之心 # 潜在透明度 # 透明图层

文章版权归作者所有，未经允许请勿转载。

CVPR 2024 | 一统所有目标感知任务，华科&字节提出目标感知基础模型GLEE

机器之心

1,608

ControlNet作者新作：AI绘画能分图层了！项目未开源就斩获660 Star

量子位

2,582

对抗「概念飘逸」难题！谷歌发布全新时间感知框架：图像识别准确率提升15%

新智元

2,543

他们，90后天才学霸，VC投疯了

admin

2,009

腾讯云 AIGC 存储解决方案全面升级，数据清洗、训练效率翻倍

极客公园

2,671

复刻Sora的通用视频生成能力，开源多智能体框架Mora来了

机器之心

1,960

暂无评论

暂无评论...

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

模型信息

文章摘要

原文信息

2万多亿美元，英伟达市值创新高，华尔街排第三

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

相关文章

暂无评论

热门网址

热门文章

ControlNet作者又出新作：百万数据训练，AI图像生成迎来图层设计

模型信息

文章摘要

原文信息

2万多亿美元，英伟达市值创新高，华尔街排第三

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章