融合ChatGPT+DALL·E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决

AIGC动态7个月前发布 QbitAI
311 0 0
融合ChatGPT+DALL·E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决

 

文章摘要


【关 键 词】 多模态图像解析连环小故事梗图Zero-shot

这篇文章介绍了香港中文大学终身教授贾佳亚团队提出的多模态模型Mini-Gemini,该模型整合了GPT-4DALL·E 3的能力,具有强大的图像解析推理和生成能力。Mini-Gemini提供了从2B到34B不同规模的模型,在多个指标上超越了谷歌的Gemini ProGPT-4V。该模型已经在PaperWithCode热榜开源,同时发布了线上Demo。用户反馈认为Mini-Gemini与商业模型相媲美,能够处理高清图像并进行图像生成。Mini-Gemini展示了在多轮对话中生成连环小故事的能力,同时能够理解和生成梗图,甚至推测制作者的深层意图。技术细节方面,Mini-Gemini采用双编码器机制高质量数据和训练阶段结合生成模型数据拓展的方法,实现了对高清图像的高效编码和生成。该模型在各种Zero-shot榜单上表现出色,超越了大厂模型。Mini-Gemini的在线Demo已经发布,用户可以通过与输入图像或文字对话来体验其图像理解和生成能力。

原文和模型


【原文链接】 阅读原文 [ 1696字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...