刷爆多模态任务榜单!贾佳亚团队Mini-Gemini登热榜,代码、模型、数据全部开源

刷爆多模态任务榜单!贾佳亚团队Mini-Gemini登热榜,代码、模型、数据全部开源

 

文章摘要


【关 键 词】 多模态开源图像理解生成能力高清输入

这篇文章介绍了由香港中文大学终身教授贾佳亚团队提出的多模态模型 Mini-Gemini,被称为绝绝子,相当于开源社区的 GPT4+DALLE3 的王炸组合。Mini-Gemini提供了从2B到34B的多种模型版本,在多个指标上超越了Google Gemini Pro和GPT-4V。该模型已全部开源,包括代码、模型和数据,并登上了PaperWithCode热榜。Mini-Gemini图像理解生成能力已经通过Demo展示,用户可以在线与自定义图像进行对话。Mini-Gemini不仅支持高清图像输入和文字输出,还能进行图像的生成,类似于ChatGPT和生成模型的结合。通过几个例子展示了Mini-Gemini的推理和图片理解能力,比如根据用户输入生成合理的图片,生成连环小故事等。Mini-Gemini的技术思路并不复杂,使用Gemini的双分支信息挖掘解决高清图像理解问题,结合ViT和卷积网络实现高效编码。在数据方面,Mini-Gemini进一步收集并优化了训练数据,实现了对图像理解、推理和生成的统一流程。实验结果显示,Mini-Gemini在各种Zero-shot的榜单上表现出色,各个版本都取得了领先的效果。Mini-Gemini提供了多种普通和高清版本的模型,覆盖了不同参数量下的模型,效果优秀。

原文和模型


【原文链接】 阅读原文 [ 1619字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...