苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V
文章摘要
【关 键 词】 苹果、Ferret-UI、大模型、多模态、端侧模型
随着大模型的兴起,科技巨头和创业公司都在新一轮的技术竞赛中寻求优势。苹果公司,尽管长期处于行业领先地位,却在大模型领域显得稍有落后。然而,苹果最近发表了一项名为“Ferret-UI”的研究,这是一个专为移动端UI屏幕设计的多模态模型,具备引用、定位和推理功能,旨在增强对移动端UI屏幕的理解。
Ferret-UI在多项基础UI任务上表现出色,尤其是在与iPhone相关的任务上,其性能超过了Ferret和GPT-4V。在OCR、图标识别和控件分类等任务上,Ferret-UI的平均准确率显著高于GPT-4V。即便在安卓平台上,Ferret-UI也展现出了可观的性能,显示出模型具有跨操作系统UI知识迁移的能力。
Ferret-UI的关键创新之一是引入了“任何分辨率”(any resolution,简称anyres)技术,以解决移动设备UI屏幕长宽比多样化的问题。这项技术通过将屏幕分割成多个子图像并放大,使模型能够捕捉到更多细节,从而提高对UI元素的识别和定位精度。此外,苹果研究团队还设计了一个分层次的实验方法,从简单到复杂,逐步提升Ferret-UI模型的能力。
在高级UI任务性能的比拼中,Ferret-UI同样表现出色,展现了与GPT-4V相当的性能,并在某些任务上超过了GPT-4V。与开源UI多模态模型Fuyu和CogAgent相比,Ferret-UI在大多数任务上均实现超过,尤其是在iPhone平台上。
面对大模型领域的竞争,苹果正在推进能够读取屏幕信息的模型研究,包括Ferret-UI及其前身Ferret,以及旨在改善与语音助手交互的ReALM。Ferret-UI的研究成果表明,苹果有望通过端侧模型功能在AI领域取得突破,从而在竞争中取得优势。随着苹果在这一领域的持续研究和发展,我们有理由期待苹果能够利用Ferret-UI等技术,为iPhone引入AI功能,从而在市场上取得领先地位。
原文和模型
【原文链接】 阅读原文 [ 2018字 | 9分钟 ]
【原文作者】 AI科技评论
【摘要模型】 gpt-4
【摘要评分】 ★★★★★