Meta发布多模态模型Chameleon:34B、类GPT-4o、性能接近GPT-4V
文章摘要
【关 键 词】 多模态AI、模型对比、技术创新、性能评估、开源趋势
在多模态人工智能领域,GPT-4o 的问世开创了一个新纪元,被称为首个“原生”多模态模型,因其能无缝融合文本、视觉和音频。
区别于传统多模态模型采用的特定模态编码器或解码器,GPT-4o 利用单一神经网络处理所有模态。
Chameleon 采用了统一的 Transformer 架构,通过将图像“分词化”为离散的 token,实现了文本和图像的交织处理。
这一“混合模态”基座模型在预训练过程中,将不同模态的信息混合在一起,以提升模型跨模态信息处理能力。Meta 研究团队还提出了一系列架构创新和训练技术来解决优化稳定性和扩展性问题。
在实验评估中,Chameleon-34B 在多种基准测试中展现出了卓越性能,即使在纯文本任务生成中,也全面超越了 Llama 2,甚至在某些任务上接近或超过了参数规模更大的模型如 Mistral-7B/8x7B。
Chameleon 的发布被视为对 GPT-4o 的快速响应,尽管当前模型主要支持图像和文本,尚未包含 GPT-4o 的语音能力。
Meta 的举措被认为朝着让 GPT-4o 更接近开源社区的方向迈进一步。未来,开源版的 GPT-4o 或将不久面世,届时 Chameleon 可能会进一步推动多模态模型的发展。
原文和模型
【原文链接】 阅读原文 [ 3635字 | 15分钟 ]
【原文作者】 Founder Park
【摘要模型】 glm-4
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...