能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

AIGC动态2年前 (2024)发布 almosthuman2014

2,323 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

摘要：

2023年，多模态大语言模型（MLLM）在文本、代码、图像、视频等领域取得了显著进展。上海人工智能实验室联合多所大学发布了一份详尽的评测报告，对GPT-4、Gemini等热门LLM和MLLM进行了评估。报告基于四种模态和三种能力，形成了12个评分项，并通过230个案例揭示了14个实证性发现。

结论速览：

– 文本和代码能力：GPT-4领先，Gemini紧随其后，Mixtral和Llama-2表现稍逊。
– 领域知识：Gemini和GPT-4领域知识丰富，但Gemini在应用上稍显不足。
– 安全与可信度：GPT-4在道德敏感性和安全可信问题上表现谨慎，但可能过于严格。
– 视觉能力：开源模型在视觉细节感知上与闭源模型差距不大，但整体有待提高。
– 因果关系分析：所有模型在视频输入的因果推理上处于起步阶段。

实验性发现：

1. 文本和代码能力：Gemini在多语种翻译上超越GPT-4，但在数学计算和推理能力上表现较差。
2. 多语言翻译能力：Gemini在成语和复杂结构翻译上表现出色。
3. 数学计算和推理能力：GPT-4在多解数学问题和定理证明上表现最佳。
4. 领域知识应用能力：GPT-4在专业知识应用上优于Gemini。
5. 文本和代码的可信度和安全性：GPT-4在安全防护上优于Gemini Pro。
6. 文本输入时的推理能力：Gemini Pro倾向于简洁回答，而其他模型提供更详细的解释。
7. 代码输入时的因果推理能力：GPT-4在问题可行性评估上表现突出。
8. 图像能力：MLLMs在图像主要内容理解上表现良好，但在精确定位和信息提取上仍有改进空间。
9. 多图理解任务：MLLMs在处理复杂推理的多图任务上面临挑战。
10. 图像安全性和可靠性评估：GPT-4在视觉干扰抵抗力上表现更可靠。
11. 图像因果推理能力：GPT-4在复杂场景理解上优于Gemini。
12. 视频处理能力：开源MLLM如VideoChat在视频理解上表现优于Gemini Pro和GPT-4。
13. 视频处理可信和安全性评测：GPT-4在视频输入的安全性上表现稳定。
14. 视频因果推理能力：所有模型在视频输入的因果推理上表现不佳。