马斯克的首款多模态大模型来了,GPT-4V又被超越了一次

马斯克的首款多模态大模型来了,GPT-4V又被超越了一次

 

文章摘要


【关 键 词】 多模态模型Grok-1.5V机器之心人工智能基准测试

自2023年11月首次亮相以来,马斯克的公司在大模型领域不断取得进步,推出了,这是一个多模态模型,能够理解文本并处理文档、图表、截图和照片中的内容。Grok-1.5V在多学科推理和理解文档等方面的表现媲美顶尖多模态模型。计划在未来几个月内显著提升模型在图像、音频和视频等各种模态上的能力。

的表现在新推出的基准测试中尤为突出,其理解物理世界的能力超过了同类产品。该模型目前尚未完全开放,但将很快提供给早期测试者和现有用户。博客中展示了在多个任务上的能力,包括将流程图转换为Python代码、计算卡路里、根据儿童画作讲述睡前故事、解释梗图、将表格转换为CSV格式、评估木头的腐朽程度以及解决编程问题。

此外,推出了基准,旨在评估多模态模型对物理世界的基本理解能力。该基准包含700多张图片,每张图片都有一个问题和答案,旨在挑战前沿模型。还包括从车辆上拍摄的匿名图像,这可能对自动驾驶领域有益。

与此同时,<微软研究院>更新了基准测试,包含22个数据集,涵盖83种语言,并加入了两个多模态数据集。也开源了基准数据集,用于测试人工智能系统在具体问答能力上的表现,这些基准测试都旨在加深大模型对现实世界的理解。

这些研究的推动预示着,我们可以期待2024年大模型在现实世界任务上取得更多的进展。如果能在类似于的开源许可证下发布,这将成为当前大模型竞争格局中的一个重要节点。

原文和模型


【原文链接】 阅读原文 [ 2237字 | 9分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...