标签:视觉问答
推理延展到真实物理世界,英伟达Cosmos-Reason1:8B具身推理表现超过OpenAI ο1
在基于物理世界的真实场景中进行视觉问答时,现有的AI模型往往无法识别出参考选项中没有最佳答案的情况。例如,当问题要求预测车辆接下来的行动时,预设选项...
西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI
该论文在人工智能顶级期刊IEEE TPAMI上发表,对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理,并对该方向未来的研究重点进行了凝练与总结。视觉问答(V...
通用文档理解新SOTA,多模态大模型TextMonkey来了
华中科技大学和金山的研究人员在多模态大模型Monkey的基础上提出了TextMonkey,这是一个专注于文本相关任务的多模态大模型。TextMonkey在多个场景文本和文档...