模型合并就进化，直接拿下SOTA！Transformer作者创业新成果火了

AIGC动态2年前 (2024)发布 QbitAI

2,361 0 0

文章摘要

这篇文章介绍了日本大模型公司提出的一种新颖的模型合并方法，旨在自动生成新的基础模型而无需进行梯度训练。他们使用进化算法引入了“进化模型合并”（Evolutionary Model Merge）的概念，结合了合并数据流空间和合并参数空间的思路，以发现最佳模型组合的通用方法。这种方法可以在数百个不同方向上扩展和微调开源基础模型，产生在新领域表现出色的新模型。通过这种方法，团队成功得到了三个基础模型，包括大语言模型EvoLLM-JP、视觉语言模型EvoVLM-JP和图像生成模型EvoSDXL-JP。这些模型在各自领域的基准测试中表现出色，超越了一些高性能模型，如Llama-2和GPT-3.5。团队表示，这些模型已经足够优秀，可以作为通用模型应用于不同领域，如解决日语数学问题或回答图像问答。虽然这些模型可以进一步通过基于梯度的反向传播提高性能，但团队强调他们选择不这样做，以证明即使没有反向传播，也可以获得先进的基础模型。这一方法受到了科学家和网友的赞赏，认为在模型领域中，搜索方法具有巨大潜力，而社区应更加重视这一方面。整体而言，这种模型合并方法展示了巨大的潜力，挑战了当前“昂贵范式”，为模型的发展带来了新的可能性。