标签:多模态理解

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

新智元报道了多模态大型语言模型(MLLMs)在多学科多模态理解和推理(MMMU)基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提升,但对其是否真正理...

突发!OpenAI展示草莓,很快发布“GPT-5”猎户座!

OpenAI近期展示了其秘密项目“草莓”和“猎户座”,这两个项目均聚焦于大语言模型(LLM)的发展。草莓项目旨在解决复杂推理任务,特别是在数学和编程领域,同时增...

超越CVPR 2024方法,DynRefer在区域级多模态识别任务上,多项SOTA

DynRefer是一种新型的区域级多模态理解模型,由中国科学院大学LAMP实验室的研究人员开发,旨在通过模拟人类视觉认知过程,提高区域级多模态任务的识别能力。...

港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体

多模态大模型(MLLM)在视觉任务中展现出强大的认知理解能力,但目前大多数模型局限于单向的图像理解,难以在图像上进行精确定位。这一问题限制了模型在图像...

百川新模型冲顶中文测试基准!首款AI助手“百小应”同时发布,“最懂搜索”

百川智能发布的首款AI应用“百小应”,是一款针对消费者市场的AI助手,它不仅具备常见的长文本阅读和多模态理解能力,还特别强调了搜索和提问的功能。百小应通...

谷歌数学版Gemini破解奥赛难题,堪比人类数学家!

在谷歌I/O大会上, Gemini 1.5 Pro的发布引起了广泛关注。该模型的数学专业版本在多项基准测试中展现出了卓越性能,特别是数学能力,其成绩甚至与人类专家水...

对标GPT4o!谷歌发布Project Astra,全民AI代理时代来啦

在5月15日的谷歌“ I/O 2024”大会上,生成式AI成为焦点,谷歌DeepMind发布了一款名为Project Astra的AI代理产品。Project Astra能够实现跨文本、音频、视频的...

谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

随着人工智能技术的不断进步,AIGC(人工智能生成内容)领域正迎来新的发展高潮。谷歌最新发布的Gemini 1.5 Pro模型,标志着大型语言模型(LLM)在多模态理解...

阿里7B多模态文档理解大模型拿下新SOTA|开源

阿里巴巴的mPLUG团队发布了最新的开源工作mPLUG-DocOwl 1.5,这是一个针对多模态文档理解的大模型,它在处理高分辨率图片文字识别、通用文档结构理解、指令遵...