谷歌创新框架：从非结构化数据，实现多模态学习

AIGC动态1年前 (2024)发布 AIGCOPEN

2,306 0 0

文章摘要

【关键词】 多模态学习、注意力机制、LANISTR框架、数据融合、实验结果

在数据爆炸时代，大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习，特别是处理多种输入和异构数据时，深度神经网络易出现过拟合和泛化不足。

针对此，谷歌提出了LANISTR框架，一种基于注意力机制的创新方法。它使用基于掩码的训练和一种新的多模态掩码损失，来学习跨模态之间的关系。

现实世界的数据通常是多模态的，单一模态无法全面描绘事件。因此，LANISTR采用基于Transformer架构的交叉注意力机制，通过多模态融合编码器，将不同模态的信息高效整合。这种方法类似于人脑在不同感官信号间切换注意力的方式。

LANISTR的多模态融合编码器由文本、图像、表格和时间序列四种编码器组成，每种编码器针对特定模态进行优化，不仅增强了单个模态特征的理解，还促进了模态间的交互学习。

文本编码器通过掩码语言模型学习词语依赖和语境；图像编码器采用Vision Transformer学习图像高层次特征；表格编码器针对稀疏和多样的表格数据进行了优化；时间序列编码器使用循环神经网络捕捉时间动态模式。

实验结果表明，LANISTR在存在大量模态缺失的情况下，依然表现出色。例如，在使用极少量有标签数据的MIMIC-IV和亚马逊产品评论数据集上，LANISTR相比最先进的方法，在AUROC和准确率上分别有显著提升，证明了其在多模态学习方面的能力。

原文和模型

【原文链接】 阅读原文 [ 1446字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★★★☆☆

智谱AI

智谱AI是一家国内的AI大模型...

# AIGC动态 # 图像生成 # 大模型 # 视频生成 # 音频生成 # LANISTR框架 # 多模态学习 # 实验结果 # 数据融合 # 注意力机制

文章版权归作者所有，未经允许请勿转载。

OpenAI 在亚洲的首届黑客松，这三个作品获奖了

Founder Park

1,880

统一SAM2和LLaVA！字节豆包提出Dense Video多模态大模型Sa2VA

机器之心

1,471

苹果开源视觉模型界的“瑞士军刀”，能执行数十种任务

AIGC开放社区

2,643

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

新智元

2,888

图文详解Transformer为什么如此强大

AI大模型实验室

2,285

LSTM之父：我也是注意力之父！1991年就发表线性复杂度，遥遥领先Transformer 26年

新智元

2,086

暂无评论

暂无评论...

谷歌创新框架：从非结构化数据，实现多模态学习

文章摘要

原文和模型

麦肯锡：ChatGPT等生成式AI应用激增，大中华区增长最快

老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国，量产Blackwell解决ChatGPT全球耗电难题

相关文章

暂无评论

热门网址

热门文章

谷歌创新框架：从非结构化数据，实现多模态学习

文章摘要

原文和模型

麦肯锡：ChatGPT等生成式AI应用激增，大中华区增长最快

老黄一口气解密三代GPU！粉碎摩尔定律打造AI帝国，量产Blackwell解决ChatGPT全球耗电难题

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章