浙大叶琦:建立机器人 Benchmark,为算法提供公平「竞技场」

浙大叶琦:建立机器人 Benchmark,为算法提供公平「竞技场」

 

文章摘要


【关 键 词】 机器人灵巧手数据集技术融合具身智能

未来机器人的操作重心将超越单纯的“拾取与放置”,更注重“拾取”后的任务执行。叶琦,一位从计算机视觉转向机器人领域的研究者,见证了机器人技术的快速发展。她最初的研究目标是让机器人完成端茶倒水等复杂任务,这一目标在当时颇具挑战性。然而,随着大模型和技术的进步,机器人领域的进展显著加快,尤其是灵巧手的研究。

叶琦的研究背景横跨计算机视觉、图形学和机器人领域。她曾在微软研究院参与 Hololens2 的手势跟踪算法开发,并深度参与了数字人研究。然而,出于对自由探索前沿技术的热爱,她选择回到学术界,专注于灵巧手的研究。灵巧手的高自由度操作难度相当于五个机械臂协同工作,尽管这一领域曾相对冷清,但近年来吸引了大量研究者,研究进度显著加快。

叶琦的课题组在 2024 年发布了大规模灵巧手抓取动作数据集 GraspM3,包含超 100 万条抓取轨迹,涵盖 8000 多个物体,为机器人抓取研究和应用提供了全面的数据资源。此外,她还推出了视触预训练与灵巧操作的数据集与基准,进一步推动了灵巧手领域的发展。她认为,随着代码和平台的开源,灵巧手领域的进入门槛将大幅降低,研究者和开发者可以更便捷地在此基础上进行创新。

叶琦的研究目标是通过智能化技术,让任何配备触觉传感器或其他传感器的灵巧手都能自主完成各类操作任务。她强调,未来机器人的操作重点不在于简单的“拾取与放置”,而在于“拾取”后如何完成特定任务,例如将杯子递给他人或在复杂区域进行流畅抓取。为此,她的数据集构建方法侧重于通过静态抓取手势生成动态手势,使灵巧手的操作更符合人类的自然抓取习惯。

在数据采集策略上,叶琦更倾向于从人类行为数据中学习,而非依赖遥操作。她认为,人类行为数据能够以更低成本获取,并支持大规模训练,为机器人注入通用能力。通过视频采集人类操作,机器人可以学习到更自然的动作模式,从而提升其操作能力。

叶琦的研究不仅推动了灵巧手技术的发展,也为机器人领域的标准化和开放化做出了贡献。她预见,随着大模型、3D 生成技术和强化学习的进步,灵巧手在未来 5 到 10 年内将成为一个极具发展前景的方向。尽管在非结构化空间中实现自由交互仍具挑战,但在特定场景下,机器人将能够完成大部分常规化任务。

原文和模型


【原文链接】 阅读原文 [ 8908字 | 36分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...