生图超级外挂！贾佳亚团队提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸组合

AIGC动态2年前 (2024)发布 aitechtalk

1,538 0 0

生图超级外挂！贾佳亚团队提出 VLM 模型 Mini-Gemini，堪比 GPT4+DALLE3 王炸组合

文章摘要

【关键词】 多模态、Mini-Gemini、图像理解、推理能力、生成模型

香港中文大学终身教授贾佳亚团队提出了一款名为Mini-Gemini的多模态模型，该模型结合了更高清图像的精确理解、更高质量的训练数据以及更强的图像解析推理能力，同时还结合了图像推理和生成的功能。Mini-Gemini被称为绝绝子，相当于开源社区的GPT4+DALLE3的王炸组合。该模型提供了2B小杯到34B的超大杯版本，最强模型在多个指标上甚至超越了Google Gemini Pro和GPT-4V。Mini-Gemini已经在PaperWithCode热榜上登上榜首，同时线上Demo也已发布，备受广大网友关注。

Mini-Gemini不同于大多数多模态模型，它不仅支持低分辨率图像输入和文字输出，还能够对高清图像进行解析，并用图像形式展现。通过示例展示，Mini-Gemini可以根据图片进行手把手教学，比如面包制作过程，也能够根据图片中的参数对比不同电脑品种。网友们对Mini-Gemini的表现赞不绝口，认为它与商业模型相差无几。Mini-Gemini不仅保留了强大的图像理解和推理能力，还解锁了图像生成的能力，类似于ChatGPT和生成模型的结合。

通过案例分析，Mini-Gemini展示了其强大的推理和图片理解能力。例如，当输入类似Google Gemini官方演示视频中的问题时，Mini-Gemini能够识别图片内容并给出建议，同时生成对应的图片。Mini-Gemini还可以根据抽象的多模态指令进行推理，并生成合适的图片，类似于ChatGPT和DALLE3的联动。此外，Mini-Gemini还展示了在多轮对话中生成连环小故事的能力，以及对于图片理解、梗图理解和多图表理解的高效处理能力。

Mini-Gemini的惊艳效果得益于三个核心要素：用于高清图像的双编码器机制、更高质量的训练数据以及训练阶段结合生成模型数据拓展。Mini-Gemini将ViT作为低分辨率的Query，使用卷积网络将高分辨率图像编码成Key和Value，通过Attention机制挖掘每个Query对应的高分辨率区域。此外，Mini-Gemini优化了训练数据的质量，并结合生成模型数据进行训练，实现了对图像理解、推理和生成的统一流程。Mini-Gemini在各种Zero-shot的榜单上表现出色，领先于Gemini Pro和GPT-4V。

总体而言，Mini-Gemini是一款功能强大的多模态模型，具有出色的图像理解、推理和生成能力。其在线Demo已经发布，用户可以通过与输入图像或文字对话来体验其功能。Mini-Gemini的技术细节、量化指标和在线可玩性都展示了其在多模态领域的领先地位。