能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

能力与可信度可以兼得?GPT-4、Gemini等多模态大模型评测报告来了
 

文章摘要


【关 键 词】 多模态大模型评测报告GPT-4GeminiMLLM

摘要:

2023年,多模态大语言模型(MLLM)在文本、代码、图像、视频等领域取得了显著进展。上海人工智能实验室联合多所大学发布了一份详尽的评测报告,对GPT-4Gemini等热门LLM和MLLM进行了评估。报告基于四种模态和三种能力,形成了12个评分项,并通过230个案例揭示了14个实证性发现。

结论速览:

文本和代码能力:GPT-4领先,Gemini紧随其后,Mixtral和Llama-2表现稍逊。
领域知识:Gemini和GPT-4领域知识丰富,但Gemini在应用上稍显不足。
安全与可信度:GPT-4在道德敏感性和安全可信问题上表现谨慎,但可能过于严格。
视觉能力:开源模型在视觉细节感知上与闭源模型差距不大,但整体有待提高。
因果关系分析:所有模型在视频输入的因果推理上处于起步阶段。

实验性发现:

1. 文本和代码能力:Gemini在多语种翻译上超越GPT-4,但在数学计算和推理能力上表现较差。
2. 多语言翻译能力:Gemini在成语和复杂结构翻译上表现出色。
3. 数学计算和推理能力:GPT-4在多解数学问题和定理证明上表现最佳。
4. 领域知识应用能力:GPT-4在专业知识应用上优于Gemini。
5. 文本和代码的可信度和安全性:GPT-4在安全防护上优于Gemini Pro。
6. 文本输入时的推理能力:Gemini Pro倾向于简洁回答,而其他模型提供更详细的解释。
7. 代码输入时的因果推理能力:GPT-4在问题可行性评估上表现突出。
8. 图像能力:MLLMs在图像主要内容理解上表现良好,但在精确定位和信息提取上仍有改进空间。
9. 多图理解任务:MLLMs在处理复杂推理的多图任务上面临挑战。
10. 图像安全性和可靠性评估:GPT-4在视觉干扰抵抗力上表现更可靠。
11. 图像因果推理能力:GPT-4在复杂场景理解上优于Gemini。
12. 视频处理能力:开源MLLM如VideoChat在视频理解上表现优于Gemini Pro和GPT-4。
13. 视频处理可信和安全性评测:GPT-4在视频输入的安全性上表现稳定。
14. 视频因果推理能力:所有模型在视频输入的因果推理上表现不佳。

总结:

本研究对MLLMs的能力进行了深入评测,揭示了其在多模态应用上的潜力和局限。尽管GPT-4和Gemini在多模态能力上取得了突破,但仍存在缺陷。研究结果为未来多模态应用的发展提供了指导,对推动通用人工智能技术的应用具有重要意义。

原文信息


【原文链接】 阅读原文
【阅读预估】 4579 / 19分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台

© 版权声明

相关文章

暂无评论

暂无评论...