Mixtral、Solar及OpenChat三大模型融合,效果能拉多高?
文章摘要
“`html
FuseLLM是中山大学和腾讯AI Lab的研究人员提出的一种用于融合多个异构大模型的方法。
与以往的模型集成和权重合并不同,FuseLLM从概率分布表征的角度来探讨大模型的融合,通过利用多个源模型生成表征,将它们的集体知识和各自优势外化,然后将生成的多个表征取长补短进行融合,最终迁移到一个目标模型。
为了实现Chat大模型的融合,团队提出了FuseChat方案,采用先融合后合并的策略,首先对不同的源模型进行知识融合,得到具有相同结构和规模的多个目标模型,然后将这些目标模型的参数合并。
在最新一期机器之心线上分享中,SOTA!模型社区邀请到了FuseLLM和FuseChat项目主理人万凡琦,分享了使用FuseChat融合多个异构大模型的经验。
分享活动的时间为3月27日19:00 – 20:00,可在机器之心机动组视频号预约直播。
“`
原文和模型
【原文链接】 阅读原文 [ 972字 | 4分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...