“视觉问答”的搜索结果

新智元报道了多模态大型语言模型（MLLMs）在多学科多模态理解和推理（MMMU）基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提...

AIGC动态

12小时前

该论文在人工智能顶级期刊IEEE TPAMI上发表，对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理，并对该方向未来的研究重点进行了凝...

AIGC动态

5个月前

云从科技的从容大模型在全球AI领域取得显著成绩，其在OpenCompass多模态榜单中以平均得分65.5分的成绩位列全球第三，仅次于GPT-4o和Clau...

AIGC动态

3个月前

张天宇在其研究中提出了一种名为视觉字幕恢复（Visual Caption Restoration, VCR）的新任务，旨在探究视觉语言模型（Vision-Language Mo...

AIGC动态

3个月前

Chameleon模型挑战了OpenAI的GPT-4o，成为首个敢于与之一较高下的新模型。Chameleon采用统一的Transformer架构，能够在单一神经网络中无...

AIGC动态

4个月前

本文介绍了由智子引擎团队研发的多模态大模型Awaker 1.0，该模型在多模态任务中表现出色，特别是在数据生成和模型自主更新方面具有创新...

AIGC动态

5个月前

智子引擎公司在中关村论坛通用人工智能平行论坛上发布了全新的多模态大模型Awaker 1.0，标志着向通用人工智能（AGI）迈出了重要一步。Aw...

AI-Agent

5个月前

这篇文章介绍了上海AI Lab和香港中文大学等研究机构提出的InternLM-XComposer2-4KHD（IXC2-4KHD）模型，这是一个可以自动分析PDF、网页...

AIGC动态

5个月前

华中科技大学和金山的研究人员在多模态大模型Monkey的基础上提出了TextMonkey，这是一个专注于文本相关任务的多模态大模型。TextMonkey...

AI-Agent

6个月前

剑桥大学信息工程系人工智能实验室最近开源了首个预训练、通用多模态后期交互知识检索器PreFLMR。该模型基于Fine-grained Late-interact...

AIGC动态

6个月前