文章摘要
【关 键 词】 苹果新模型、ReALM、上下文理解、Siri智能助手、参数量80M
苹果公司最近发布了一款名为ReALM的新型AI模型,这款模型仅需80M参数即可实现对各种形式上下文的理解,包括屏幕解析、多轮对话和上下文引用等。ReALM的推出旨在提高Siri等智能助手的反应速度和智能程度,使其能够更加准确地理解用户的需求。
ReALM模型的核心功能是将任何形式的上下文转换为文本,以便进行深入理解。这种转换使得AI能够捕捉到用户的关注点,甚至是用户的想法。例如,当用户请求Siri推荐披萨店并在列表中选择时,ReALM能够通过分析设备数据来理解用户的指示,从而执行如打电话叫外卖等后续操作。这一进步解决了以往Siri在处理模糊指令时的局限性。
在性能方面,即使是参数量最小的ReALM模型也能与GPT-4相媲美,而更大的模型则表现得更加出色。苹果通过将所有内容转换为文本的方式简化了复杂参考信息的处理,这一策略显著提高了模型的效率,尤其适合在iPhone等终端设备上使用。
ReALM模型的另一个优势在于其处理屏幕信息的方式。与依赖图像识别的GPT-4等模型不同,ReALM通过将图像转换为文本来节省参数,避免了高级图像识别所需的大量参数。此外,苹果还采用了限制解码和简单后处理等方法来避免幻觉问题。
论文中提到的数据集包括合成数据和注释者创建的数据,这些数据点包含用户查询、实体列表和真值实体等信息。会话数据和屏幕数据的收集方法也在论文中有详细描述。在模型方面,ReALM与基于MARRS的参考解析器和ChatGPT等基线方法进行了比较。实验结果显示,ReALM在所有类型的数据集中都优于MARRS模型,并且在参数量上大幅领先于GPT-3.5。在屏幕相关的数据集上,ReALM的文本编码方法使其几乎能与GPT-4媲美。
总体来看,ReALM模型的推出是苹果在人工智能领域的一次重要进展,预示着未来智能助手将变得更加智能和高效。随着6月WWDC的临近,我们有望看到苹果在这一领域的更多创新和布局。
原文和模型
【原文链接】 阅读原文 [ 2685字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★