免费 AI “神器”系列第五弹：斯坦福洗碗机器人爆火，字节版DALL·E模型登上开源榜单前三｜钛媒体AGI

AIGC动态1年前 (2024)发布 TMTPOSTAGI

1,915 0 0

作者信息

【原文作者】 钛媒体AGI
【作者简介】 钛媒体集团旗下产品。专注AI新浪潮，第一时间带来AI新模式、新产品、新趋势。让我们汇聚最前沿的AI创新与思考，从这里开启AGI新世界！
【微信号】 TMTPOSTAGI

文章摘要

文章介绍了五款创新的人工智能（AI）应用，这些应用在生成式人工智能（AIGC）领域具有很高的价值。这五款应用分别是：

1. 斯坦福AI“螃蟹”洗碗机器人技术——UMI：这是一款由美国斯坦福大学团队开发的AI机器人数据收集和策略学习框架。UMI可以将人类在复杂环境下的操作技能直接转移给机器人，无需人类编写详细的编程指令。UMI技术涵盖了技能转移、数据收集、多平台部署、提高机器人操作能力、快速适应新任务、降低机器人学习成本等新亮点和功能。

2. 字节版DALL·E——SDXL-Lightning开源文生图模型：这是一款由字节跳动开发的开源免费的文生图模型，能根据文本快速生成相应的高分辨率图像。SDXL-Lightning的生成速度有显著提高，能够在最少步骤内完成文本到1024px分辨率图像的生成，适用于需要快速响应的应用场景。

3. 在线试衣服神器——OOTDiffusion：这是一个高度可控的虚拟服装试穿开源工具，可在线生成不同型号、款式的服装在模特身上的试穿效果。OOTDiffusion支持半身和全身虚拟试穿，用户可通过调整模型路径、缩放比例和采样次数等参数，精细控制虚拟试穿的细节和效果。

4. 高质量动画生成模型——AnimateLCM-SVD-xt：这是一款能以尽可能少的步骤加速采样生成高保真视频的模型。AnimateLCM-SVD-xt仅需2~8个推理步骤就能生成25帧分辨率576×1024的高质量动画，比传统Stable Video Diffusion（SVD）模型生成速度更快、视频生成质量更高。

5. “全能”视频生成大模型——VideoPoet：这是谷歌推出的一款视频生成大模型，主要有文本转视频、图片转视频、视频风格转换、视频修复和视频生成音频五大功能。VideoPoet在单一的大型语言模型中集成了多种视频生成能力，能根据不同的任务需求调整其生成过程。