卡内基梅隆大学开源LegoGPT,用AI设计乐高模型

AIGC动态7小时前发布 AIGCOPEN
20 0 0
卡内基梅隆大学开源LegoGPT,用AI设计乐高模型

 

文章摘要


【关 键 词】 乐高生成模型开源设计教育

卡内基梅隆大学近期开源了LegoGPT,这是一种能够根据文本提示生成物理乐高模型的创新方法。LegoGPT的推出填补了从自由形式文本提示直接生成乐高设计的空白,突破了以往研究局限于单一对象类别的限制。通过这种方法,用户可以输入描述性文本,例如“一座带有尖塔和彩色玻璃的中世纪城堡”,LegoGPT会首先规划整体结构,确定主体、城墙、塔楼和尖塔的位置与形状,然后挑选合适尺寸和形状的积木进行搭建。对于彩色玻璃部分,系统会运用纹理和颜色生成技术,为积木赋予五彩斑斓的效果,最终生成一个完整且物理稳定的乐高城堡模型。

LegoGPT的核心创新在于将乐高设计问题转化为一个自回归文本生成任务,充分利用了语言模型在序列生成方面的强大能力。研究人员通过简单的文本格式指定每一块砖的尺寸和放置位置,为乐高设计提供了一种全新的、基于文本的表达方式。为了训练高质量模型,团队开发了一个超大规模的、物理稳定的乐高设计数据集StableText2Lego。该数据集包含了超过47,000个不同的Lego结构,涵盖了来自ShapeNetCore数据集的28,000多个独特的3D对象,这些对象被分为21个常见的物体类别。每个结构都配有详细的文本描述和稳定性评分,这些评分用于评估其物理稳定性和可构建性。

在数据处理方面,研究人员首先将ShapeNetCore中的3D网格模型转换为乐高结构。然后将3D网格体素化到一个20×20×20的网格世界中,以确保一致的尺度,并通过一种分割和合并的乐高化算法生成砖块布局。为了提高数据质量和多样性,团队在乐高化过程中引入了随机性,为同一个3D对象生成多个不同的乐高结构。此外,他们还使用了一种稳定性分析方法来评估每个结构的物理稳定性,只保留那些所有砖块的稳定性评分都大于0的结构。

在模型训练方面,LegoGPT是基于LLaMA-3.2-1B-Instruct微调而成,能够理解文本提示并生成相应的乐高设计。为了进一步提高模型的性能,研究人员构建了一个专门的指令微调数据集,其中包含了文本提示和对应的乐高结构。每个稳定的设计和其对应的描述都被构建成一个指令,格式为:“(用户)根据{描述}创建一个乐高模型。(助手){Lego设计}。”通过这种方式,模型能够学习如何根据文本描述生成具体的乐高设计。

LegoGPT除了能生成乐高模型外,还能够为这些结构生成详细的纹理和颜色,可以将详细的UV纹理或统一的颜色分配给每个砖块。对于给定的乐高结构及其对应的网格模型,首先识别出所有被相邻砖块完全覆盖的砖块,并将其移除以提高效率。然后,将剩余的砖块合并成一个单一的网格模型,并通过立方体投影生成UV映射。接着,利用一种快速的基于文本的网格纹理生成方法FlashTex,根据文本提示生成纹理贴图。这种方法不仅能够为Lego模型提供丰富的视觉细节,还能确保这些纹理与用户的描述高度一致。

目前,LegoGPT刚开源没几天已经快破1000颗星了,在应用场景方面非常广泛。教育领域,教师可以利用它根据教学内容生成各种乐高模型示例,帮助学生更直观地理解复杂的概念,如历史建筑的结构、科学实验装置等,激发学生的学习兴趣和创造力。在玩具设计行业,设计师可以借助LegoGPT快速将创意转化为实际的乐高模型原型,大大缩短设计周期,提高设计效率,为市场带来更多新颖有趣的乐高玩具产品。

原文和模型


【原文链接】 阅读原文 [ 1205字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...