文章摘要
【关 键 词】 多模态、大语言模型、移动UI屏幕、推理能力、屏幕交互
苹果发布了最新的多模态大语言模型(MLLM)Ferret-UI,该模型在理解和与屏幕信息交互方面表现出卓越性能,超越了GPT-4V。Ferret-UI专为理解移动UI屏幕而设计,具备指向、定位和推理等多种能力,通过灵活的输入格式和基础任务在移动用户界面屏幕上执行引用任务。其关键特点是「任何分辨率」技术,通过放大细节解决小型对象识别问题,提高对UI元素的理解精度。Ferret-UI不仅能在详细描述和感知对话中讨论视觉元素,还能在交互对话中提出目标导向的动作并通过函数推理推断屏幕的整体功能。
Ferret-UI基于Ferret模型,擅长在自然图像中进行空间参照和定位,具有预先训练的视觉编码器和纯解码器语言模型。与之前的MLLM不同,Ferret-UI是自给自足的,将原始屏幕像素作为模型输入,促进高级单屏交互,提高可访问性。研究人员对iPhone和安卓设备的屏幕进行了研究,使用RICO和AMP数据集,进一步从屏幕收集细粒度元素注释。
在任务制定方面,研究人员将Spotlight任务格式化为会话QA对,定义了referring任务和基础任务,使用GPT-3.5 Turbo扩展基本提示。为了融入推理能力,使用LLaVA方法和GPT-4收集详细描述、对话感知、对话交互和功能推理数据。实验结果显示,Ferret-UI在初级任务和高级任务上表现出优越性能,具有显著的可转移性。消融研究表明,基本任务提供了增强的视觉和空间理解,促进了高级任务的性能提升。
在分析Ferret-UI的参照功能时,特别关注OCR和小部件分类预测,发现模型能够准确预测部分被截断的文本,展现出优秀的性能。总体而言,Ferret-UI的出色表现预示着MLLM领域的巨大进步,苹果可能通过掌握应用程序屏幕并使AI像人类一样进行交互,改变MLLM的游戏规则。
原文和模型
【原文链接】 阅读原文 [ 2150字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★☆