标签：视觉问答

推理延展到真实物理世界，英伟达Cosmos-Reason1：8B具身推理表现超过OpenAI ο1

在基于物理世界的真实场景中进行视觉问答时，现有的AI模型往往无法识别出参考选项中没有最佳答案的情况。例如，当问题要求预测车辆接下来的行动时，预设选项...

AIGC动态

6个月前

西安交大发表鲁棒视觉问答综述，揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

该论文在人工智能顶级期刊IEEE TPAMI上发表，对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理，并对该方向未来的研究重点进行了凝练与总结。视觉问答（V...

AIGC动态

1年前 (2024)

通用文档理解新SOTA，多模态大模型TextMonkey来了

华中科技大学和金山的研究人员在多模态大模型Monkey的基础上提出了TextMonkey，这是一个专注于文本相关任务的多模态大模型。TextMonkey在多个场景文本和文档...

AI-Agent

1年前 (2024)