“视觉问答”的搜索结果

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
新智元报道了多模态大型语言模型(MLLMs)在多学科多模态理解和推理(MMMU)基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提...
西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI
该论文在人工智能顶级期刊IEEE TPAMI上发表,对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理,并对该方向未来的研究重点进行了凝...
多模态能力全球TOP3,来自中国从容大模型
云从科技的从容大模型在全球AI领域取得显著成绩,其在OpenCompass多模态榜单中以平均得分65.5分的成绩位列全球第三,仅次于GPT-4o和Clau...
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
张天宇在其研究中提出了一种名为视觉字幕恢复(Visual Caption Restoration, VCR)的新任务,旨在探究视觉语言模型(Vision-Language Mo...
Meta首发「变色龙」挑战GPT-4o,34B参数引领多模态革命!10万亿token训练刷新SOTA
Chameleon模型挑战了OpenAI的GPT-4o,成为首个敢于与之一较高下的新模型。Chameleon采用统一的Transformer架构,能够在单一神经网络中无...
超级智能体生命力觉醒!可自我更新的AI来了,妈妈再也不用担心数据瓶颈难题
本文介绍了由智子引擎团队研发的多模态大模型Awaker 1.0,该模型在多模态任务中表现出色,特别是在数据生成和模型自主更新方面具有创新...
全球首个自主进化多模态MoE震撼登场!写真视频击败Sora,人大系团队自研底座VDT
智子引擎公司在中关村论坛通用人工智能平行论坛上发布了全新的多模态大模型Awaker 1.0,标志着向通用人工智能(AGI)迈出了重要一步。Aw...
轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便
这篇文章介绍了上海AI Lab和香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(IXC2-4KHD)模型,这是一个可以自动分析PDF、网页...
通用文档理解新SOTA,多模态大模型TextMonkey来了
华中科技大学和金山的研究人员在多模态大模型Monkey的基础上提出了TextMonkey,这是一个专注于文本相关任务的多模态大模型。TextMonkey...
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
剑桥大学信息工程系人工智能实验室最近开源了首个预训练、通用多模态后期交互知识检索器PreFLMR。该模型基于Fine-grained Late-interact...
1 2