模型合并就进化,直接拿下SOTA!Transformer作者创业新成果火了

AIGC动态8个月前发布 QbitAI
672 0 0
模型合并就进化,直接拿下SOTA!Transformer作者创业新成果火了

 

文章摘要


【关 键 词】 模型合并进化算法基础模型性能提升潜力挑战

这篇文章介绍了日本大模型公司提出的一种新颖的模型合并方法,旨在自动生成新的基础模型而无需进行梯度训练。他们使用进化算法引入了“进化模型合并”(Evolutionary Model Merge)的概念,结合了合并数据流空间和合并参数空间的思路,以发现最佳模型组合的通用方法。这种方法可以在数百个不同方向上扩展和微调开源基础模型,产生在新领域表现出色的新模型。通过这种方法,团队成功得到了三个基础模型,包括大语言模型EvoLLM-JP、视觉语言模型EvoVLM-JP和图像生成模型EvoSDXL-JP。这些模型在各自领域的基准测试中表现出色,超越了一些高性能模型,如Llama-2GPT-3.5。团队表示,这些模型已经足够优秀,可以作为通用模型应用于不同领域,如解决日语数学问题或回答图像问答。虽然这些模型可以进一步通过基于梯度的反向传播提高性能,但团队强调他们选择不这样做,以证明即使没有反向传播,也可以获得先进的基础模型。这一方法受到了科学家和网友的赞赏,认为在模型领域中,搜索方法具有巨大潜力,而社区应更加重视这一方面。整体而言,这种模型合并方法展示了巨大的潜力,挑战了当前“昂贵范式”,为模型的发展带来了新的可能性。

原文和模型


【原文链接】 阅读原文 [ 1524字 | 7分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...