7B模型超越GPT4-V！港科大等发布「图推理问答」数据集GITQA：视觉图可提升推理能力

AIGC动态2年前 (2024)发布 AIera

3,772 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

新智元报道了一项关于图推理的研究，该研究由香港科技大学和南方科技大学的研究团队进行。他们证实了视觉图（Visual Graph）在图推理中的作用，并发现它可以增强基于文本的图推理模型。研究团队创建了GITQA数据集，这是一个包含视觉图的推理问答数据集，用于测试和训练模型。实验结果显示，结合视觉和文本信息的模型在图推理任务上表现更好，尤其是经过微调的LLaVA模型，其性能超过了GPT-4V。此外，研究还探讨了不同难度等级和视觉图增强策略对模型性能的影响。

摘要总结

图推理的新突破：研究团队发现，将图结构转换为视觉图像（视觉图）可以显著提升图推理任务的性能。这一发现挑战了传统图神经网络（GNNs）和基于大型语言模型（LLM）的图推理方法，后者通常需要特定领域的调优。

GITQA数据集：为了验证视觉图的有效性，研究者构建了GITQA数据集，包含超过423K个问答实例，每个实例都包含图结构、文本和视觉信息。数据集分为两个版本：GITQA-Base（单一风格视觉图）和GITQA-Aug（多种风格和增强处理的视觉图）。

实验结果：
– 模态对比：在Cycle和BGM任务中，视觉模态优于文本模态；而在其他任务中，文本模态表现更好。
– 模态增强：结合视觉和文本信息的模型在所有任务上的平均准确率显著高于单一模态模型。
– 模型性能：微调后的LLaVA模型（GITA）在图推理任务上超越了GPT-4V，显示出显著的性能提升。

难度与风格：研究还发现，随着任务难度的增加，仅使用视觉模态的模型性能显著下降。此外，布局增强策略在微调模型时提供了最有效的视觉视角，而其他增强策略则导致性能下降。

这项研究为图推理领域提供了新的视角，并为未来的模型开发和应用提供了有价值的见解。

原文信息

【原文链接】 阅读原文
【阅读预估】 1928 / 8分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。