作者信息
【原文作者】 Z Potentials
【作者简介】 我们与Z Potentials同频共振
【微 信 号】 ZPotentials
文章摘要
【关 键 词】 多模态大模型、模型进展、训练成本、人机协作、MoE架构
文章总结:
本文主要介绍了近期在多模态大模型领域的最新进展,包括LLaVA-NeXT、SPHINX-X、MobileVLM和CogCoM等多个模型。这些模型在性能、训练成本、多模态理解等方面取得了显著的成果。文章还探讨了在大模型训练过程中,产学研对技术范式的不同认知如何影响任务选择和训练方式。
重点内容如下:
1. LLaVA-NeXT模型在性能和训练成本方面取得了突破,仅使用32个GPU和约1天的训练时间,总共有130万数据样本,计算及训练数据成本比其他模型成本小100-1000倍。
2. SPHINX-X模型首次采用高分辨率图像自适应的训练算法,并在多个基准测试中达到SOTA。
3. MobileVLM模型结合了专为移动设备设计的语言模型和预训练的多模态视觉模型,为物联网应用提供了新的可能。
4. CogCoM模型采用一种名为CoM(Chain of Manipulations)的机制,通过对视觉输入进行处理,例如通过提供grounding和模仿人类行为的信息,使模型通过有证据的视觉推理生成更准确的回答。
5. 大模型的可解释性被认为是信任问题,当模型出现错误和幻觉的可能性低到极限,就不需要解释了。
6. 文章指出,未来大模型的发展趋势可能更倾向于人机协作和辅助代理的模式,即结合自主与协作的工作方式,而非完全独立运作——AI作为助手而非代理。
7. MoE(Mixture of Experts)架构的出现,使得模型能在较少的参数量下实现更细致的计算过程,赋予其处理与大模型比肩的复杂任务的能力。
8. 文章最后强调,在大模型的涌现过程中,仍有尖锐的问题不断被提出,这恰恰说明有大量的空间值得我们去探索和开拓。
原文信息
【原文链接】 阅读原文
【原文字数】 3352
【阅读时长】 12分钟