标签:多模态
DeepMind前员工创立的AI公司发布新模型,能理解音频与视频,推理性能超过Gemini
Reka是一家总部位于旧金山的AI初创公司,由来自DeepMind、Google和Meta的研究人员联合创立,最近推出了一款名为Reka Core的全新多模态语言模型。这款模型被誉...
贾佳亚团队新模型对标ChatGPT+DALL-E 3王炸组合!读懂梗图刷爆榜单,代码复现数学函数
这篇文章介绍了贾佳亚团队提出的超强视觉语言模型Mini-Gemini,该模型在多模态任务中表现出色,被称为开源社区版的GPT-4+DALL-E组合。Mini-Gemini提供了2B小...
融合ChatGPT+DALL·E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决
这篇文章介绍了香港中文大学终身教授贾佳亚团队提出的多模态模型Mini-Gemini,该模型整合了GPT-4和DALL·E 3的能力,具有强大的图像解析推理和生成能力。Mini-...
生图超级外挂!贾佳亚团队提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸组合
香港中文大学终身教授贾佳亚团队提出了一款名为Mini-Gemini的多模态模型,该模型结合了更高清图像的精确理解、更高质量的训练数据以及更强的图像解析推理能力...
刷爆多模态任务榜单!贾佳亚团队Mini-Gemini登热榜,代码、模型、数据全部开源
这篇文章介绍了由香港中文大学终身教授贾佳亚团队提出的多模态模型 Mini-Gemini,被称为绝绝子,相当于开源社区的 GPT4+DALLE3 的王炸组合。Mini-Gemini提供...
中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹
面壁智能,一家源自清华大学的创业公司,近期在大语言模型领域取得了显著进展。该公司致力于优化语言模型,以提高效率并降低成本。今年2月,面壁智能发布了第...
“梗王”大模型,靠讲笑话登上CVPR | 中山大学
这篇文章介绍了中山大学HCP实验室团队与Sea AI Lab以及哈佛大学合作的研究成果,他们提出了一种新的训练方法CLoT,旨在激发多模态大模型的创造力。首先,团队...
从 YC W24 看硅谷 AI 创业新趋势:AI Agent、垂直领域、多模态和 AI 安全
2024年4月4日,Y Combinator(YC)W2024批次Demo Day成功举办,共有260个项目亮相。从2.7万份申请中脱颖而出,通过率低于1%,成为历史上录取比例最低的一轮批...
超越GPT-4V,苹果多模态大模型上新!
苹果发布了最新的多模态大语言模型(MLLM)Ferret-UI,该模型在理解和与屏幕信息交互方面表现出卓越性能,超越了GPT-4V。Ferret-UI专为理解移动UI屏幕而设计...
苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V
随着大模型的兴起,科技巨头和创业公司都在新一轮的技术竞赛中寻求优势。苹果公司,尽管长期处于行业领先地位,却在大模型领域显得稍有落后。然而,苹果最近...