文章摘要
近日,港中文终身教授贾佳亚团队推出了一款名为 Mini-Gemini 的多模态模型,包括 2B 小杯到 34B 的超大杯,一经发布便登上了 PaperWithCode 热榜。Mini-Gemini 在图文理解力方面表现出色,最强模型版本在多个指标上与 Gemini Pro、GPT-4V 相媲美,被网友称为开源社区的 GPT4+DALL-E 3 的王炸组合。研究团队将 Mini-Gemini 的代码、模型、数据全部开源,并发布了线上 Demo,受到广泛关注和好评。
Mini-Gemini 在图像理解及推理方面展现出强大能力,支持高清图像输入和图像形式输出。它能够理解和处理各种图像,如漫画教程、产品参数对比、数学曲线图等,提升工作效率。此外,Mini-Gemini 还具备图像生成能力,通过抽象指令生成合适的图片,类似于 ChatGPT 和 DALL-E 3 的联动,为用户提供更多可能性。
Mini-Gemini 在梗图理解方面表现出色,通过强大的 OCR 和推理能力,能够准确指出 meme 图的笑点。它能够根据用户输入生成连环小故事,满足用户需求,展现出出色的创造力和趣味性。技术细节方面,Mini-Gemini 的设计思路简洁明了,采用 Gemini 双分支信息挖掘解决高清图像理解问题,核心包括双编码器机制、高质量数据和生成模型数据拓展。
Mini-Gemini 使用 ViT 作为低分辨率 Query,利用卷积网络将高分辨率图像编码成 Key 和 Value,通过 Attention 机制提升对高清图像的响应。同时,Mini-Gemini 进一步优化了训练数据质量,结合生成模型数据进行训练,实现了对图像理解、推理和生成的统一流程。在各种 Zero-shot 的榜单上表现出色,展现出与大厂模型相媲美的性能。
总体而言,Mini-Gemini 是一款功能强大的多模态模型,具备出色的图像理解、推理和生成能力,同时在梗图理解方面表现突出。其简单易用的 Demo 吸引了广泛关注,为用户提供了便捷的体验。
原文和模型
【原文链接】 阅读原文 [ 1269字 | 6分钟 ]
【原文作者】 AI前线
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆