文章摘要
【关 键 词】 多模态、图像解析、连环小故事、梗图、Zero-shot
这篇文章介绍了香港中文大学终身教授贾佳亚团队提出的多模态模型Mini-Gemini,该模型整合了GPT-4和DALL·E 3的能力,具有强大的图像解析推理和生成能力。Mini-Gemini提供了从2B到34B不同规模的模型,在多个指标上超越了谷歌的Gemini Pro和GPT-4V。该模型已经在PaperWithCode热榜上开源,同时发布了线上Demo。用户反馈认为Mini-Gemini与商业模型相媲美,能够处理高清图像并进行图像生成。Mini-Gemini展示了在多轮对话中生成连环小故事的能力,同时能够理解和生成梗图,甚至推测制作者的深层意图。技术细节方面,Mini-Gemini采用双编码器机制、高质量数据和训练阶段结合生成模型数据拓展的方法,实现了对高清图像的高效编码和生成。该模型在各种Zero-shot榜单上表现出色,超越了大厂模型。Mini-Gemini的在线Demo已经发布,用户可以通过与输入图像或文字对话来体验其图像理解和生成能力。
原文和模型
【原文链接】 阅读原文 [ 1696字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...