标签:多模态
融合ChatGPT+DALL·E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决
这篇文章介绍了香港中文大学终身教授贾佳亚团队提出的多模态模型Mini-Gemini,该模型整合了GPT-4和DALL·E 3的能力,具有强大的图像解析推理和生成能力。Mini-...
生图超级外挂!贾佳亚团队提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸组合
香港中文大学终身教授贾佳亚团队提出了一款名为Mini-Gemini的多模态模型,该模型结合了更高清图像的精确理解、更高质量的训练数据以及更强的图像解析推理能力...
刷爆多模态任务榜单!贾佳亚团队Mini-Gemini登热榜,代码、模型、数据全部开源
这篇文章介绍了由香港中文大学终身教授贾佳亚团队提出的多模态模型 Mini-Gemini,被称为绝绝子,相当于开源社区的 GPT4+DALLE3 的王炸组合。Mini-Gemini提供...
中文OCR超越GPT-4V,参数量仅2B,面壁小钢炮拿出了第二弹
面壁智能,一家源自清华大学的创业公司,近期在大语言模型领域取得了显著进展。该公司致力于优化语言模型,以提高效率并降低成本。今年2月,面壁智能发布了第...
“梗王”大模型,靠讲笑话登上CVPR | 中山大学
这篇文章介绍了中山大学HCP实验室团队与Sea AI Lab以及哈佛大学合作的研究成果,他们提出了一种新的训练方法CLoT,旨在激发多模态大模型的创造力。首先,团队...
从 YC W24 看硅谷 AI 创业新趋势:AI Agent、垂直领域、多模态和 AI 安全
2024年4月4日,Y Combinator(YC)W2024批次Demo Day成功举办,共有260个项目亮相。从2.7万份申请中脱颖而出,通过率低于1%,成为历史上录取比例最低的一轮批...
超越GPT-4V,苹果多模态大模型上新!
苹果发布了最新的多模态大语言模型(MLLM)Ferret-UI,该模型在理解和与屏幕信息交互方面表现出卓越性能,超越了GPT-4V。Ferret-UI专为理解移动UI屏幕而设计...
苹果发布多模态模型 Ferret-UI,部分手机 UI 任务超越 GPT-4V
随着大模型的兴起,科技巨头和创业公司都在新一轮的技术竞赛中寻求优势。苹果公司,尽管长期处于行业领先地位,却在大模型领域显得稍有落后。然而,苹果最近...
香港大模型公司Weitu AI首秀,打造多模态Native的技术和产品
香港的Weitu AI公司近期推出了一款具有150亿参数的多模态大模型WeituAI 1.0,该模型在多个国际权威评测榜单上取得了显著成绩,不仅超越了同量级的模型,甚至...
专访优必选庞建新:在大模型时代推动机器人智能化|GAIR live
未来几年,AI+人形机器人领域将迎来颠覆性的技术变革。庞建新,优必选副总裁、研究院副院长,正领导团队将大模型技术应用于人形机器人的多模态感知和决策规划...