融合ChatGPT+DALL·E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决

AIGC动态10个月前发布 QbitAI

361 0 0

融合ChatGPT+DALL·E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决

文章摘要

【关键词】 多模态、图像解析、连环小故事、梗图、Zero-shot

这篇文章介绍了香港中文大学终身教授贾佳亚团队提出的多模态模型Mini-Gemini，该模型整合了GPT-4和DALL·E 3的能力，具有强大的图像解析推理和生成能力。Mini-Gemini提供了从2B到34B不同规模的模型，在多个指标上超越了谷歌的Gemini Pro和GPT-4V。该模型已经在PaperWithCode热榜上开源，同时发布了线上Demo。用户反馈认为Mini-Gemini与商业模型相媲美，能够处理高清图像并进行图像生成。Mini-Gemini展示了在多轮对话中生成连环小故事的能力，同时能够理解和生成梗图，甚至推测制作者的深层意图。技术细节方面，Mini-Gemini采用双编码器机制、高质量数据和训练阶段结合生成模型数据拓展的方法，实现了对高清图像的高效编码和生成。该模型在各种Zero-shot榜单上表现出色，超越了大厂模型。Mini-Gemini的在线Demo已经发布，用户可以通过与输入图像或文字对话来体验其图像理解和生成能力。

原文和模型

【原文链接】 阅读原文 [ 1696字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # GPT-GPTs # 图像生成 # 大模型 # Zero-shot # 图像解析 # 多模态 # 梗图 # 连环小故事

© 版权声明

文章版权归作者所有，未经允许请勿转载。

“绘蛙”

相关文章

任意论文一键变播客，谷歌正式发布Illuminate，它能重构研究者的学习方式吗？

机器之心

947

Gemini 2.0发布！主打Agent+多模态，性能超1.5 Pro、可直接生成音频、图片

Founder Park

187

AI鲜测 | Claude 3全面升级：多模态+100万Token上下文长度，OpenAI也拦不住了

硅星人Pro

602

WAIC 首日集锦丨AI 春晚，大佬都说了啥？

极客公园

1,151

视频、图像、文本，只需基于下一个Token预测：智源Emu3发布，验证多模态模型新范式

机器之心

647

大模型的发展方向，Chatgpt？AI Agent？两万字深度思考！

admin

1,121

暂无评论

暂无评论...