离职谷歌的Transformer作者创业，连发3个模型（附技术报告）

AIGC动态1年前 (2024)发布 almosthuman2014

1,934 0 0

文章摘要

去年8月，前谷歌研究人员David Ha和Llion Jones创立了位于日本东京的人工智能公司Sakana AI，其中Llion Jones是谷歌2017年经典研究论文《Attention is all you need》的第五作者，该论文提出了深度学习架构transformer。Sakana AI致力于构建生成式AI模型，最近推出了一种通用方法Evolutionary Model Merge，使用进化算法发现组合不同开源模型的最佳方法，能够自动创建具有用户指定功能的新基础模型。通过该方法演化出的日语大语言模型（LLM）和日语视觉语言模型（VLM）在多个基准上取得了SOTA结果，其中日语LLM在数学推理方面表现出色，超过了一些70B参数LLM。团队还演化出了三个强大的基础模型：大语言模型（EvoLLM-JP）、视觉语言模型（EvoVLM-JP）和图像生成模型（EvoSDXL-JP），Evolutionary Model Merge方法能够自动生成新的基础模型，无需基于梯度的训练，节省计算资源。

Evolutionary Model Merge是一种通用进化方法，能够从选定的基础模型中自动生成合并模型，确保性能超过任何单个模型，核心是进化算法。该方法结合了合并数据流空间和合并参数空间中的模型，通过进化发现不同模型各层的最佳组合以形成新模型，以及混合多个模型权重的新方法。研究者通过实验证明，该方法能够创建具有新功能的新模型，如日语数学LLM和支持日语的VLM。其中，EvoLLM-JP是一个日语数学LLM，通过进化算法合并日语LLM和特定于数学的LLM，取得了出色的表现。EvoVLM-JP是一个日语视觉语言模型，通过合并流行的VLM和日语LLM，证明了进化算法在合并模型中的重要作用。EvoSDXL-JP则是根据提示生成图片的模型。

总体来看，Sakana AI团队通过Evolutionary Model Merge方法成功演化出多个具有SOTA性能的基础模型，展示了进化算法在发现新模型组合方面的潜力，为人工智能领域带来了新的可能性。详细的技术报告介绍了该方法的原理和实验结果，展示了其在合并不同模型方面的有效性和创新性。