80M参数打平GPT-4！苹果发超强上下文理解模型，聪明版Siri马上就来

AIGC动态1年前 (2024)发布 AIera

3,352 0 0

文章摘要

【关键词】 苹果新模型、ReALM、上下文理解、Siri智能助手、参数量80M

苹果公司最近发布了一款名为ReALM的新型AI模型，这款模型仅需80M参数即可实现对各种形式上下文的理解，包括屏幕解析、多轮对话和上下文引用等。ReALM的推出旨在提高Siri等智能助手的反应速度和智能程度，使其能够更加准确地理解用户的需求。

ReALM模型的核心功能是将任何形式的上下文转换为文本，以便进行深入理解。这种转换使得AI能够捕捉到用户的关注点，甚至是用户的想法。例如，当用户请求Siri推荐披萨店并在列表中选择时，ReALM能够通过分析设备数据来理解用户的指示，从而执行如打电话叫外卖等后续操作。这一进步解决了以往Siri在处理模糊指令时的局限性。

在性能方面，即使是参数量最小的ReALM模型也能与GPT-4相媲美，而更大的模型则表现得更加出色。苹果通过将所有内容转换为文本的方式简化了复杂参考信息的处理，这一策略显著提高了模型的效率，尤其适合在iPhone等终端设备上使用。

ReALM模型的另一个优势在于其处理屏幕信息的方式。与依赖图像识别的GPT-4等模型不同，ReALM通过将图像转换为文本来节省参数，避免了高级图像识别所需的大量参数。此外，苹果还采用了限制解码和简单后处理等方法来避免幻觉问题。

论文中提到的数据集包括合成数据和注释者创建的数据，这些数据点包含用户查询、实体列表和真值实体等信息。会话数据和屏幕数据的收集方法也在论文中有详细描述。在模型方面，ReALM与基于MARRS的参考解析器和ChatGPT等基线方法进行了比较。实验结果显示，ReALM在所有类型的数据集中都优于MARRS模型，并且在参数量上大幅领先于GPT-3.5。在屏幕相关的数据集上，ReALM的文本编码方法使其几乎能与GPT-4媲美。

总体来看，ReALM模型的推出是苹果在人工智能领域的一次重要进展，预示着未来智能助手将变得更加智能和高效。随着6月WWDC的临近，我们有望看到苹果在这一领域的更多创新和布局。