马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

AIGC动态1年前 (2024)发布 almosthuman2014

2,059 0 0

文章摘要

【关键词】 多模态模型、Grok-1.5V、机器之心、人工智能、基准测试

自2023年11月首次亮相以来，马斯克的公司在大模型领域不断取得进步，推出了，这是一个多模态模型，能够理解文本并处理文档、图表、截图和照片中的内容。Grok-1.5V在多学科推理和理解文档等方面的表现媲美顶尖多模态模型。计划在未来几个月内显著提升模型在图像、音频和视频等各种模态上的能力。

的表现在新推出的基准测试中尤为突出，其理解物理世界的能力超过了同类产品。该模型目前尚未完全开放，但将很快提供给早期测试者和现有用户。博客中展示了在多个任务上的能力，包括将流程图转换为Python代码、计算卡路里、根据儿童画作讲述睡前故事、解释梗图、将表格转换为CSV格式、评估木头的腐朽程度以及解决编程问题。

此外，推出了基准，旨在评估多模态模型对物理世界的基本理解能力。该基准包含700多张图片，每张图片都有一个问题和答案，旨在挑战前沿模型。还包括从车辆上拍摄的匿名图像，这可能对自动驾驶领域有益。

与此同时，<微软研究院>更新了基准测试，包含22个数据集，涵盖83种语言，并加入了两个多模态数据集。也开源了基准数据集，用于测试人工智能系统在具体问答能力上的表现，这些基准测试都旨在加深大模型对现实世界的理解。

这些研究的推动预示着，我们可以期待2024年大模型在现实世界任务上取得更多的进展。如果能在类似于的开源许可证下发布，这将成为当前大模型竞争格局中的一个重要节点。