标签:视觉问答

西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

该论文在人工智能顶级期刊IEEE TPAMI上发表,对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理,并对该方向未来的研究重点进行了凝练与总结。视觉问答(V...

通用文档理解新SOTA,多模态大模型TextMonkey来了

华中科技大学和金山的研究人员在多模态大模型Monkey的基础上提出了TextMonkey,这是一个专注于文本相关任务的多模态大模型。TextMonkey在多个场景文本和文档...