o3 都要来了还能做点什么?人大&蚂蚁团队:自下而上数据合成让大模型能够多模态推理
文章摘要
【关 键 词】 视觉推理、人工智能、数据合成、多模态、性能提升
中国人民大学高瓴人工智能学院与蚂蚁技术研究院的研究团队在EMNLP 2024上提出了一种视觉推理框架,旨在提升视觉语言模型的多模态推理能力。该框架基于“由浅入深”的理念,通过任务分解降低复杂性,提高推理过程的透明度,并实现即插即用,无需修改原有模型架构。研究团队设计了四种工具:定位工具、高亮工具、文本工具和问答工具,分别模拟人类的视觉任务处理能力。这些工具协同工作,逐步拆解复杂问题,生成推理链。
针对视觉推理数据匮乏的问题,研究团队开发了一种自下而上的数据合成方法,低成本自动生成高质量的视觉推理链数据。该方法包括实体识别、多级节点构建、子问题设计和主问题合成四个模块,能够构建出逻辑连贯的子问题,形成完整的推理路径。研究团队已开源了包含百万量级推理链的数据集,以推动多模态推理研究。
实验结果显示,该推理框架在多个视觉问答基准测试集上均实现了显著性能提升,且在不同架构的视觉语言模型上具有较好的适应性。此外,训练数据规模的增加有助于性能提升,且使用该框架在更先进的视觉语言模型上仍能取得显著提升,处理时间仅略有增加。这一成果为增强视觉语言模型的推理能力提供了新的解决方案,未来研究将继续探索更复杂的推理模式和更广泛的应用场景。
原文和模型
【原文链接】 阅读原文 [ 4117字 | 17分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...