苹果发布多模态模型 Ferret-UI，部分手机 UI 任务超越 GPT-4V

AI-Agent1年前 (2024)发布 aitechtalk

2,407 0 0

文章摘要

随着大模型的兴起，科技巨头和创业公司都在新一轮的技术竞赛中寻求优势。苹果公司，尽管长期处于行业领先地位，却在大模型领域显得稍有落后。然而，苹果最近发表了一项名为“Ferret-UI”的研究，这是一个专为移动端UI屏幕设计的多模态模型，具备引用、定位和推理功能，旨在增强对移动端UI屏幕的理解。

Ferret-UI在多项基础UI任务上表现出色，尤其是在与iPhone相关的任务上，其性能超过了Ferret和GPT-4V。在OCR、图标识别和控件分类等任务上，Ferret-UI的平均准确率显著高于GPT-4V。即便在安卓平台上，Ferret-UI也展现出了可观的性能，显示出模型具有跨操作系统UI知识迁移的能力。

Ferret-UI的关键创新之一是引入了“任何分辨率”（any resolution，简称anyres）技术，以解决移动设备UI屏幕长宽比多样化的问题。这项技术通过将屏幕分割成多个子图像并放大，使模型能够捕捉到更多细节，从而提高对UI元素的识别和定位精度。此外，苹果研究团队还设计了一个分层次的实验方法，从简单到复杂，逐步提升Ferret-UI模型的能力。

在高级UI任务性能的比拼中，Ferret-UI同样表现出色，展现了与GPT-4V相当的性能，并在某些任务上超过了GPT-4V。与开源UI多模态模型Fuyu和CogAgent相比，Ferret-UI在大多数任务上均实现超过，尤其是在iPhone平台上。

面对大模型领域的竞争，苹果正在推进能够读取屏幕信息的模型研究，包括Ferret-UI及其前身Ferret，以及旨在改善与语音助手交互的ReALM。Ferret-UI的研究成果表明，苹果有望通过端侧模型功能在AI领域取得突破，从而在竞争中取得优势。随着苹果在这一领域的持续研究和发展，我们有理由期待苹果能够利用Ferret-UI等技术，为iPhone引入AI功能，从而在市场上取得领先地位。