Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V

AIGC动态1年前 (2024)发布 Founder Park

3,050 0 0

Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V

文章摘要

【关键词】 多模态AI、模型对比、技术创新、性能评估、开源趋势

在多模态人工智能领域，GPT-4o 的问世开创了一个新纪元，被称为首个“原生”多模态模型，因其能无缝融合文本、视觉和音频。

区别于传统多模态模型采用的特定模态编码器或解码器，GPT-4o 利用单一神经网络处理所有模态。

Chameleon 采用了统一的 Transformer 架构，通过将图像“分词化”为离散的 token，实现了文本和图像的交织处理。

这一“混合模态”基座模型在预训练过程中，将不同模态的信息混合在一起，以提升模型跨模态信息处理能力。Meta 研究团队还提出了一系列架构创新和训练技术来解决优化稳定性和扩展性问题。

在实验评估中，Chameleon-34B 在多种基准测试中展现出了卓越性能，即使在纯文本任务生成中，也全面超越了 Llama 2，甚至在某些任务上接近或超过了参数规模更大的模型如 Mistral-7B/8x7B。

Chameleon 的发布被视为对 GPT-4o 的快速响应，尽管当前模型主要支持图像和文本，尚未包含 GPT-4o 的语音能力。

Meta 的举措被认为朝着让 GPT-4o 更接近开源社区的方向迈进一步。未来，开源版的 GPT-4o 或将不久面世，届时 Chameleon 可能会进一步推动多模态模型的发展。

原文和模型

【原文链接】 阅读原文 [ 3635字 | 15分钟 ]
【原文作者】 Founder Park
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

智谱AI

智谱AI是一家国内的AI大模型...

# AIGC动态 # GPT-GPTs # 图像生成 # 大模型 # 音频生成 # 多模态AI # 开源趋势 # 性能评估 # 技术创新 # 模型对比

文章版权归作者所有，未经允许请勿转载。

“智汇张江——赋能‘芯’质生产力，共建产业‘芯’生态” 复旦大学集成电路产业发展论坛成功举办

admin

1,703

推理强，医疗能力更强！百川全场景深度思考模型登场

新智元

1,487

对话大卓智能 CEO 谷俊丽：科技圈对汽车的难度估计有些理想化

极客公园

2,524

支付宝突然推出新App，竟想用AI让日常生活开挂

机器之心

2,853

半导体 FTIR 外延膜厚量测设备实现新突破！

admin

2,252

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

机器之心

2,883

暂无评论

暂无评论...

Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V

文章摘要

原文和模型

智能驾驶的「GPT 时刻」，怎么就被特斯拉搞出来了？

好莱坞巨星指控OpenAI，ChatGPT山寨她的声音

相关文章

暂无评论

热门网址

热门文章

Meta发布多模态模型Chameleon：34B、类GPT-4o、性能接近GPT-4V

文章摘要

原文和模型

智能驾驶的「GPT 时刻」，怎么就被特斯拉搞出来了？

好莱坞巨星指控OpenAI，ChatGPT山寨她的声音

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章