文章摘要
【关 键 词】 多模态学习、注意力机制、LANISTR框架、数据融合、实验结果
在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络易出现过拟合和泛化不足。
针对此,谷歌提出了LANISTR框架,一种基于注意力机制的创新方法。它使用基于掩码的训练和一种新的多模态掩码损失,来学习跨模态之间的关系。
现实世界的数据通常是多模态的,单一模态无法全面描绘事件。因此,LANISTR采用基于Transformer架构的交叉注意力机制,通过多模态融合编码器,将不同模态的信息高效整合。这种方法类似于人脑在不同感官信号间切换注意力的方式。
LANISTR的多模态融合编码器由文本、图像、表格和时间序列四种编码器组成,每种编码器针对特定模态进行优化,不仅增强了单个模态特征的理解,还促进了模态间的交互学习。
文本编码器通过掩码语言模型学习词语依赖和语境;图像编码器采用Vision Transformer学习图像高层次特征;表格编码器针对稀疏和多样的表格数据进行了优化;时间序列编码器使用循环神经网络捕捉时间动态模式。
实验结果表明,LANISTR在存在大量模态缺失的情况下,依然表现出色。例如,在使用极少量有标签数据的MIMIC-IV和亚马逊产品评论数据集上,LANISTR相比最先进的方法,在AUROC和准确率上分别有显著提升,证明了其在多模态学习方面的能力。
原文和模型
【原文链接】 阅读原文 [ 1446字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★★★☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...