文章摘要
【关 键 词】 视觉模型、多模态学习、开源资源、AIGC发展、技术评测
苹果和瑞士洛桑联邦理工学院的研究人员共同开发了4M-21,一个大规模多模态视觉模型,并于近日开源。该模型以其30亿参数量却能提供包括图像分类、目标检测、语义分割、实例分割、深度估计和表面法线估计等数十种功能的全面性而著称,类似于视觉模型界的“瑞士军刀”。
4M-21的关键技术是“离散tokens”转换技术,该技术将不同模态的数据转换为统一格式的tokens序列数据,简化了模型训练并为多模态学习和处理提供了基础。例如,图像数据通过基于Vision Transformer的变分量化自编码器进行标记化,而文本数据则通过WordPiece分词器编码为文本tokens。
在训练过程中,4M-21采用掩码建模方法,随机遮盖输入序列的部分tokens,然后基于剩余未遮盖的tokens预测被遮盖部分。这种方法不仅提升了模型的泛化能力,还提高了生成任务的准确性,使模型能够以迭代的方式预测缺失的tokens。
研究人员在多个测试平台上对4M-21进行了综合评测,结果显示其多模态处理能力可与当前最先进模型媲美。例如,在COCO数据集的语义和实例分割任务上,4M-21表现出色,准确识别和区分图像中的多个对象。在3DPW数据集上的3D人体姿态估计任务中,4M-21也取得了显著成绩,能够精确捕捉人体的姿态变化。
4M-21的开源地址为https://github.com/apple/ml-4m/,相关论文可在https://arxiv.org/abs/2406.09406查阅,同时Hugging Face上也有在线demo可供体验:https://huggingface.co/spaces/EPFL-VILAB/4M。这一模型的发布为AIGC领域的专业社区提供了新的研究和应用资源,有助于推动大语言模型(LLM)的发展和市场研究,同时也为AIGC开发者生态带来新的动力。
原文和模型
【原文链接】 阅读原文 [ 1217字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆