梗图理解“天花板”！港中文终身教授贾佳亚团队推出多模态模型：GPT-4+DALL-E 3，王炸组合刷爆榜单

AIGC动态2年前 (2024)发布 ai-front

2,246 0 0

梗图理解“天花板”！港中文终身教授贾佳亚团队推出多模态模型：GPT-4+DALL-E 3，王炸组合刷爆榜单

文章摘要

近日，港中文终身教授贾佳亚团队推出了一款名为 Mini-Gemini 的多模态模型，包括 2B 小杯到 34B 的超大杯，一经发布便登上了 PaperWithCode 热榜。Mini-Gemini 在图文理解力方面表现出色，最强模型版本在多个指标上与 Gemini Pro、GPT-4V 相媲美，被网友称为开源社区的 GPT4+DALL-E 3 的王炸组合。研究团队将 Mini-Gemini 的代码、模型、数据全部开源，并发布了线上 Demo，受到广泛关注和好评。

Mini-Gemini 在图像理解及推理方面展现出强大能力，支持高清图像输入和图像形式输出。它能够理解和处理各种图像，如漫画教程、产品参数对比、数学曲线图等，提升工作效率。此外，Mini-Gemini 还具备图像生成能力，通过抽象指令生成合适的图片，类似于 ChatGPT 和 DALL-E 3 的联动，为用户提供更多可能性。

Mini-Gemini 在梗图理解方面表现出色，通过强大的 OCR 和推理能力，能够准确指出 meme 图的笑点。它能够根据用户输入生成连环小故事，满足用户需求，展现出出色的创造力和趣味性。技术细节方面，Mini-Gemini 的设计思路简洁明了，采用 Gemini 双分支信息挖掘解决高清图像理解问题，核心包括双编码器机制、高质量数据和生成模型数据拓展。

Mini-Gemini 使用 ViT 作为低分辨率 Query，利用卷积网络将高分辨率图像编码成 Key 和 Value，通过 Attention 机制提升对高清图像的响应。同时，Mini-Gemini 进一步优化了训练数据质量，结合生成模型数据进行训练，实现了对图像理解、推理和生成的统一流程。在各种 Zero-shot 的榜单上表现出色，展现出与大厂模型相媲美的性能。

总体而言，Mini-Gemini 是一款功能强大的多模态模型，具备出色的图像理解、推理和生成能力，同时在梗图理解方面表现突出。其简单易用的 Demo 吸引了广泛关注，为用户提供了便捷的体验。