让智能体像孩子一样观察别人学习动作,跨视角技能学习数据集EgoExoLearn来了
文章摘要
【关 键 词】 人工智能、学习能力、数据集、EgoExoLearn、跨视角
在人工智能领域,模仿人类学习能力一直是研究的热点。近期,由上海人工智能实验室、南京大学、中科院深圳先进技术研究院等机构联合发布的EgoExoLearn数据集,旨在通过第一视角和第三视角的视频素材,赋予机器观察他人并学习新动作的能力。
EgoExoLearn数据集包含120小时的视频,涵盖日常生活和专业实验室操作,提供了丰富的视角转换和融合数据。这些数据不仅包括视频,还有高质量的注视数据和多模态标注,为机器学习异步动作建模提供了宝贵资源。
研究者还提出了一系列基准测试,包括跨视角关联、行动规划和技能评估等,以全面评估数据集的价值。这些测试和分析预示着EgoExoLearn将成为机器人学习真实世界人类行为的重要工具。
研究背景部分指出,人类从小就能观察他人行为并映射到自己视角,这在执行高试错成本的操作时尤其有用。目前,AI智能体的训练通常需要第一视角的演示视频,而直接从不同视角学习对AI来说至关重要。现有的工作要么在模拟环境中学习模型,要么从现实世界中的人类活动中学习,但都存在泛化困难或数据集质量、规模问题。
EgoExoLearn数据集介绍了收集流程和标注统计,包括日常任务和专业实验室任务,以及详细的多模态人类标注。数据集的独特之处在于它提供了时间限定的语言字幕、跨视角关联和多标签视频片段。
新基准测试包括跨视角关联、动作理解、技能评估和视频描述,这些测试旨在评估模型在连接第一视角和第三视角异步程序性动作方面的能力。
结论强调,EgoExoLearn数据集为研究如何桥接跨视角异步活动提供了资源,推动了新的研究方向,如利用注视和与手相关的标注。基准测试结果显示,尽管当前模型在连接第一和第三视角方面还有不足,但未来有很大的改进空间。
总结来说,EgoExoLearn数据集的发布是人工智能领域的一个重要进展,它不仅提供了丰富的数据资源,还推动了新的研究方向和方法,有望帮助AI技术实现更高级的学习能力,从而更好地模仿和理解人类行为。
原文和模型
【原文链接】 阅读原文 [ 2993字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★★★★