贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合！读懂梗图刷爆榜单，代码复现数学函数

AIGC动态1年前 (2024)发布 AIera

871 0 0

贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合！读懂梗图刷爆榜单，代码复现数学函数

文章摘要

【关键词】 Mini-Gemini、多模态、图像理解、推理生成、梗图处理

这篇文章介绍了贾佳亚团队提出的超强视觉语言模型Mini-Gemini，该模型在多模态任务中表现出色，被称为开源社区版的GPT-4+DALL-E组合。Mini-Gemini提供了2B小杯到34B超大杯的不同选择，具有超强的图文理解力，与Gemini Pro和GPT-4V相媲美。该模型支持高清图像输入和图像生成，能够解析和展现复杂图像，如面包九宫格图片教程或Mac电脑参数对比。Mini-Gemini还具有推理再生成的能力，可以根据输入进行推理并生成相应的图片，类似于ChatGPT和DALLE3的结合。此外，Mini-Gemini还能理解梗图，通过OCR和推理能力准确指出笑点，同时能够处理复杂的多图表理解和归纳。技术细节方面，Mini-Gemini采用双编码器机制、高质量数据和生成模型数据拓展，通过ViT和卷积网络实现高清图像的响应和编码。Mini-Gemini的图像理解和生成能力已经出了Demo，可在线与自定义图像对话。总体而言，Mini-Gemini在各种Zero-shot的榜单上表现出色，甚至超越了Gemini Pro和GPT-4V，是一款性能优秀的多模态模型。