标签:视觉语言模型
自动漂移、用LLM和扩散模型“折腾”机器人…顶会CoRL上最佳论文都在研究啥
第8届机器人学习大会(CoRL)于2024年11月6日至9日在德国慕尼黑举办,聚焦机器人学习领域的最新研究进展。会议吸引了超过1000名参与者,共收到671篇投稿,其...
李飞飞团队提出ReKep,让机器人具备空间智能,还能整合GPT-4o
李飞飞团队在机器人技术领域取得了显著进展,提出了一种名为关系关键点约束(ReKep)的新方法,该方法通过将任务分解为关键点序列来实现机器人操作任务的约束...
超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA
DynRefer是一种新型的区域级多模态理解模型,由中国科学院大学LAMP实验室的研究人员开发,旨在通过模拟人类视觉认知过程,提高区域级多模态任务的识别能力。...
谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA
摘要:谷歌的最新研究成果ScreenAI是一个强大的视觉语言模型,它在理解和操作用户界面方面取得了显著进展。这个模型能够执行屏幕问答、内容摘要等多种任务,...