文章摘要
【关 键 词】 机器人、表情预测、非语言交流、人机互动、自我监督学习
哥伦比亚大学华人团队近期开发了一款名为Emo的机器人,这款机器人具备了预测和模拟人类表情的能力,甚至能够在人微笑前840毫秒进行预测并同步微笑,从而实现了眼神交流等非语言互动。这一进步被认为是人机交互领域的一次革命,因为传统的机器人设计往往忽略了人类在交互过程中的非语言表达。
Emo的研发过程中,研究团队面临了两大挑战:一是如何设计一个具有表现力的多功能机器人脸部,涉及复杂的硬件和驱动机制;二是机器人脸部需要知道何时生成哪种表情,以使其看起来自然、及时和真实。为了解决这些问题,Emo的脸部配备了26个执行器,能够呈现多种微妙的面部表情,并使用硅胶皮设计以便快速定制和维护。研究人员还为机器人的眼睛配备了高分辨率摄像头,使其能够进行眼神交流。
在软件方面,研究团队开发了两个人工智能模型:一个用于分析目标面部的细微变化来预测人类的面部表情,另一个用于生成相应的面部表情运动指令。通过自我监督学习框架,Emo能够通过观察镜子中的自己来学习运动指令与所产生的面部表情之间的关系,这类似于人类照镜子练习面部表情。研究人员通过让Emo观看人类面部表情的视频并逐帧学习,使其能够预测人类的面部表情。
Emo的面部表情由19个电机控制,其中18个电机对称分布,一个电机控制下颌运动。研究人员提出了一个升级版逆向模型,使机器人能够在相同的计算硬件上更快地生成电机指令。此外,研究人员还开发了一个预测模型,能够实时预测对话者的目标面部表情。这一模型通过分析人类面部的初始和细微变化,预测其将要做出的目标表情。
Emo研究的下一步是将语言交流整合到其中,例如接入ChatGPT这样的大模型,以使机器人的行为更加接近人类。同时,随着机器人能力的提升,研究团队也将关注背后的伦理问题。通过发展能够准确解读和模仿人类表情的机器人,我们正在向机器人可以无缝融入我们日常生活的未来迈进,这将为人类提供陪伴和帮助。想象在未来,与机器人互动将像与朋友交谈一样自然和舒适。
原文和模型
【原文链接】 阅读原文 [ 3411字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★