贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!读懂梗图刷爆榜单,代码复现数学函数

AIGC动态7个月前发布 AIera
386 0 0
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!读懂梗图刷爆榜单,代码复现数学函数

 

文章摘要


【关 键 词】 Mini-Gemini多模态图像理解推理生成梗图处理

这篇文章介绍了贾佳亚团队提出的超强视觉语言模型Mini-Gemini,该模型在多模态任务中表现出色,被称为开源社区版的GPT-4+DALL-E组合。Mini-Gemini提供了2B小杯到34B超大杯的不同选择,具有超强的图文理解力,与Gemini Pro和GPT-4V相媲美。该模型支持高清图像输入和图像生成,能够解析和展现复杂图像,如面包九宫格图片教程或Mac电脑参数对比。Mini-Gemini还具有推理再生成的能力,可以根据输入进行推理并生成相应的图片,类似于ChatGPT和DALLE3的结合。此外,Mini-Gemini还能理解梗图,通过OCR和推理能力准确指出笑点,同时能够处理复杂的多图表理解和归纳。技术细节方面,Mini-Gemini采用双编码器机制高质量数据和生成模型数据拓展,通过ViT和卷积网络实现高清图像的响应和编码。Mini-Gemini的图像理解和生成能力已经出了Demo,可在线与自定义图像对话。总体而言,Mini-Gemini在各种Zero-shot的榜单上表现出色,甚至超越了Gemini Pro和GPT-4V,是一款性能优秀的多模态模型。

原文和模型


【原文链接】 阅读原文 [ 1885字 | 8分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...