文章摘要
【关 键 词】 多模态模型、Grok-1.5V、机器之心、人工智能、基准测试
自2023年11月首次亮相以来,马斯克的公司在大模型领域不断取得进步,推出了,这是一个多模态模型,能够理解文本并处理文档、图表、截图和照片中的内容。Grok-1.5V在多学科推理和理解文档等方面的表现媲美顶尖多模态模型。计划在未来几个月内显著提升模型在图像、音频和视频等各种模态上的能力。
的表现在新推出的基准测试中尤为突出,其理解物理世界的能力超过了同类产品。该模型目前尚未完全开放,但将很快提供给早期测试者和现有用户。博客中展示了在多个任务上的能力,包括将流程图转换为Python代码、计算卡路里、根据儿童画作讲述睡前故事、解释梗图、将表格转换为CSV格式、评估木头的腐朽程度以及解决编程问题。
此外,推出了基准,旨在评估多模态模型对物理世界的基本理解能力。该基准包含700多张图片,每张图片都有一个问题和答案,旨在挑战前沿模型。还包括从车辆上拍摄的匿名图像,这可能对自动驾驶领域有益。
与此同时,<微软研究院>更新了基准测试,包含22个数据集,涵盖83种语言,并加入了两个多模态数据集。也开源了基准数据集,用于测试人工智能系统在具体问答能力上的表现,这些基准测试都旨在加深大模型对现实世界的理解。
这些研究的推动预示着,我们可以期待2024年大模型在现实世界任务上取得更多的进展。如果能在类似于的开源许可证下发布,这将成为当前大模型竞争格局中的一个重要节点。
原文和模型
【原文链接】 阅读原文 [ 2237字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★★★★