生图超级外挂!贾佳亚团队提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸组合

AIGC动态7个月前发布 aitechtalk
404 0 0
生图超级外挂!贾佳亚团队提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸组合

 

文章摘要


【关 键 词】 多模态Mini-Gemini图像理解推理能力生成模型

香港中文大学终身教授贾佳亚团队提出了一款名为Mini-Gemini多模态模型,该模型结合了更高清图像的精确理解、更高质量的训练数据以及更强的图像解析推理能力,同时还结合了图像推理和生成的功能。Mini-Gemini被称为绝绝子,相当于开源社区的GPT4+DALLE3的王炸组合。该模型提供了2B小杯到34B的超大杯版本,最强模型在多个指标上甚至超越了Google Gemini Pro和GPT-4V。Mini-Gemini已经在PaperWithCode热榜上登上榜首,同时线上Demo也已发布,备受广大网友关注。

Mini-Gemini不同于大多数多模态模型,它不仅支持低分辨率图像输入和文字输出,还能够对高清图像进行解析,并用图像形式展现。通过示例展示,Mini-Gemini可以根据图片进行手把手教学,比如面包制作过程,也能够根据图片中的参数对比不同电脑品种。网友们对Mini-Gemini的表现赞不绝口,认为它与商业模型相差无几。Mini-Gemini不仅保留了强大的图像理解和推理能力,还解锁了图像生成的能力,类似于ChatGPT和生成模型的结合。

通过案例分析,Mini-Gemini展示了其强大的推理和图片理解能力。例如,当输入类似Google Gemini官方演示视频中的问题时,Mini-Gemini能够识别图片内容并给出建议,同时生成对应的图片。Mini-Gemini还可以根据抽象的多模态指令进行推理,并生成合适的图片,类似于ChatGPT和DALLE3的联动。此外,Mini-Gemini还展示了在多轮对话中生成连环小故事的能力,以及对于图片理解、梗图理解和多图表理解的高效处理能力。

Mini-Gemini的惊艳效果得益于三个核心要素:用于高清图像的双编码器机制、更高质量的训练数据以及训练阶段结合生成模型数据拓展。Mini-Gemini将ViT作为低分辨率的Query,使用卷积网络将高分辨率图像编码成Key和Value,通过Attention机制挖掘每个Query对应的高分辨率区域。此外,Mini-Gemini优化了训练数据的质量,并结合生成模型数据进行训练,实现了对图像理解、推理和生成的统一流程。Mini-Gemini在各种Zero-shot的榜单上表现出色,领先于Gemini Pro和GPT-4V。

总体而言,Mini-Gemini是一款功能强大的多模态模型,具有出色的图像理解、推理和生成能力。其在线Demo已经发布,用户可以通过与输入图像或文字对话来体验其功能。Mini-Gemini的技术细节、量化指标和在线可玩性都展示了其在多模态领域的领先地位。

原文和模型


【原文链接】 阅读原文 [ 1623字 | 7分钟 ]
【原文作者】 AI科技评论
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...