融合ChatGPT+DALL·E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决

AIGC动态1年前 (2024)发布 QbitAI

839 0 0

融合ChatGPT+DALL·E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决

文章摘要

【关键词】 多模态、图像解析、连环小故事、梗图、Zero-shot

这篇文章介绍了香港中文大学终身教授贾佳亚团队提出的多模态模型Mini-Gemini，该模型整合了GPT-4和DALL·E 3的能力，具有强大的图像解析推理和生成能力。Mini-Gemini提供了从2B到34B不同规模的模型，在多个指标上超越了谷歌的Gemini Pro和GPT-4V。该模型已经在PaperWithCode热榜上开源，同时发布了线上Demo。用户反馈认为Mini-Gemini与商业模型相媲美，能够处理高清图像并进行图像生成。Mini-Gemini展示了在多轮对话中生成连环小故事的能力，同时能够理解和生成梗图，甚至推测制作者的深层意图。技术细节方面，Mini-Gemini采用双编码器机制、高质量数据和训练阶段结合生成模型数据拓展的方法，实现了对高清图像的高效编码和生成。该模型在各种Zero-shot榜单上表现出色，超越了大厂模型。Mini-Gemini的在线Demo已经发布，用户可以通过与输入图像或文字对话来体验其图像理解和生成能力。

原文和模型

【原文链接】 阅读原文 [ 1696字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # GPT-GPTs # 图像生成 # 大模型 # Zero-shot # 图像解析 # 多模态 # 梗图 # 连环小故事

© 版权声明

文章版权归作者所有，未经允许请勿转载。

“绘蛙”

相关文章

谷歌开源Gemma-3：媲美DeepSeek，算力暴降10倍

AIGC开放社区

1,679

只是RAG了一下，我看到了AI大模型的态度！

量子位

1,400

苹果开源通用视觉模型：创新训练方法，超1000颗星

AIGC开放社区

1,417

有一款AI工具悄悄成为GPT最佳替代品，并且还是免费的！

admin

3,165

大模型的发展方向，Chatgpt？AI Agent？两万字深度思考！

admin

2,381

AI看柯南2分钟揪真凶，商汤600B多模态MoE推理封神！交互记忆全线升级

新智元

1,321

“极客训练营”

暂无评论

暂无评论...