文章摘要
【关 键 词】 多模态模型、Chameleon、Transformer架构、信息融合、技术创新
Chameleon模型挑战了OpenAI的GPT-4o,成为首个敢于与之一较高下的新模型。Chameleon采用统一的Transformer架构,能够在单一神经网络中无缝处理文本和图像,通过将不同模态的信息转换为token,实现了模态间的早期融合。
Chameleon突破了传统模型使用特定编码器或解码器的限制,提高了跨模态信息融合的能力。模型经10万亿多模态token训练,340亿参数的Chameleon在纯文本任务中的性能与Gemini-Pro相当,并在视觉问答和图像标注基准上刷新了最新技术水平,接近GPT-4V的性能。
Chameleon的技术创新包括对模型架构的改进和训练技巧的运用,如QK归一化和Zloss等策略,以及将纯文本语言模型微调为多模态模型的方法。在分词化方面,Chameleon团队开发了一种新的图像分词器,将图像编码为离散的token,并与基于sentencepiece的文本分词器结合,共同训练了一个含有文本和图像token的BPE分词器。
这一系列创新使得Chameleon能够在多模态内容生成方面展现出文本和图像交错的能力,尽管模型目前主要支持图像和文本的生成,尚不具备GPT-4o中的语音处理能力。Meta的表态显示,他们致力于推动多模态基础模型的发展,并有可能进一步向开源社区靠拢,未来或许能见到类似GPT-4o的开源版本。
原文和模型
【原文链接】 阅读原文 [ 4072字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...