标签:视觉语言模型

李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o

李飞飞团队在机器人技术领域取得了显著进展,提出了一种名为关系关键点约束(ReKep)的新方法,该方法通过将任务分解为关键点序列来实现机器人操作任务的约束...

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

DynRefer是一种新型的区域级多模态理解模型,由中国科学院大学LAMP实验室的研究人员开发,旨在通过模拟人类视觉认知过程,提高区域级多模态任务的识别能力。...

谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA

摘要:谷歌的最新研究成果ScreenAI是一个强大的视觉语言模型,它在理解和操作用户界面方面取得了显著进展。这个模型能够执行屏幕问答、内容摘要等多种任务,...