标签:多模态

轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

这篇文章介绍了上海AI Lab和香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(IXC2-4KHD)模型,这是一个可以自动分析PDF、网页、海报、Excel图表内容...

突发!Stable Diffusion 3,可通过API使用啦

4月18日,Stability.ai宣布其最新文生图模型Stable Diffusion 3(SD3)和SD3 Turbo已经可以在API中使用,由知名API管理平台Fireworks AI提供服务。相比前两代...

梗图理解“天花板”!港中文终身教授贾佳亚团队推出多模态模型:GPT-4+DALL-E 3,王炸组合刷爆榜单

近日,港中文终身教授贾佳亚团队推出了一款名为 Mini-Gemini 的多模态模型,包括 2B 小杯到 34B 的超大杯,一经发布便登上了 PaperWithCode 热榜。Mini-Gemin...

DeepMind前员工创立的AI公司发布新模型,能理解音频与视频,推理性能超过Gemini

Reka是一家总部位于旧金山的AI初创公司,由来自DeepMind、Google和Meta的研究人员联合创立,最近推出了一款名为Reka Core的全新多模态语言模型。这款模型被誉...

贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!读懂梗图刷爆榜单,代码复现数学函数

这篇文章介绍了贾佳亚团队提出的超强视觉语言模型Mini-Gemini,该模型在多模态任务中表现出色,被称为开源社区版的GPT-4+DALL-E组合。Mini-Gemini提供了2B小...

融合ChatGPT+DALL·E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决

这篇文章介绍了香港中文大学终身教授贾佳亚团队提出的多模态模型Mini-Gemini,该模型整合了GPT-4和DALL·E 3的能力,具有强大的图像解析推理和生成能力。Mini-...

生图超级外挂!贾佳亚团队提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸组合

香港中文大学终身教授贾佳亚团队提出了一款名为Mini-Gemini的多模态模型,该模型结合了更高清图像的精确理解、更高质量的训练数据以及更强的图像解析推理能力...

刷爆多模态任务榜单!贾佳亚团队Mini-Gemini登热榜,代码、模型、数据全部开源

这篇文章介绍了由香港中文大学终身教授贾佳亚团队提出的多模态模型 Mini-Gemini,被称为绝绝子,相当于开源社区的 GPT4+DALLE3 的王炸组合。Mini-Gemini提供...

中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹

面壁智能,一家源自清华大学的创业公司,近期在大语言模型领域取得了显著进展。该公司致力于优化语言模型,以提高效率并降低成本。今年2月,面壁智能发布了第...

“梗王”大模型,靠讲笑话登上CVPR | 中山大学

这篇文章介绍了中山大学HCP实验室团队与Sea AI Lab以及哈佛大学合作的研究成果,他们提出了一种新的训练方法CLoT,旨在激发多模态大模型的创造力。首先,团队...
1 4 5 6 7 8 12