1320亿参数,性能超LLaMA2、Grok-1!开源大模型DBRX

AIGC动态9个月前发布 AIGCOPEN
1,112 0 0
1320亿参数,性能超LLaMA2、Grok-1!开源大模型DBRX

 

文章摘要


【关 键 词】 DatabricksDBRX大模型MoE模型MPT-7B

Databricks,一家著名的数据和AI平台,于3月28日正式开源了其大模型DBRX

DBRX是一个专家混合模型(MoE),拥有1320亿参数,能生成文本/代码、数学推理等,有基础和微调两种模型。

根据公布的测试数据,DBRX的性能超过了LLaMA2-70B和马斯克最近开源的Grok-1,推理效率比LLaMA2-70B快2倍,总参数却只有Grok-1的三分之一,是一款功能强算力消耗低的大模型。

Databricks在2023年6月26日以13亿美元收购了大模型开源平台MosaicML,以抓住生成式AI的风口。

MosaicML在2023年5月5日发布了类ChatGPT开源大语言模型MPT-7B,该项目具备可商业化、高性能、算力消耗低、1T训练数据等技术优势。

MPT-7B只进行了大约10天的训练,零人工干预,训练成本仅用了20万美元。性能却打败了LLaMA-7B、StablelM-7B 、Cerebras-13B等当时知名开源模型。

目前,MPT-7B的下载量已超过300万次,而Databricks此次发布的DBRX在MPT-7B基础之上进行了大幅度优化并且将算力需求降低了4倍。

DBRX是一款基于Transformer的MoE架构大模型,1320亿参数中的360亿参数处于长期激活状态。

这与其它开源的MoE类型模型如Mixtral、Grok-1相比,DBRX使用了数量更多的小专家模型。

DBRX有16个专家并选择4个,而Mixtral和Grok-1有8个专家并选择了2个。

DBRX使用了12T的文本和代码数据(支持中文),支持 32k上下文窗口,并在3072 个 英伟达的 H100 上进行了3个月的预训练。

MoE模型全称为Mixture of Experts,其核心原理是将一个庞大的神经网络分解为多个相对独立的小型子网络(即专家),每个专家负责处理输入数据的某些方面。

这种架构设计使得MoE模型能够高效利用计算资源,避免对所有参数进行无谓的计算。主要包括门控制机制、专家网络和聚合器三大模块。

Databricks创立于2013年,总部位于美国旧金山,在全球多个国家、地区设有办事处。

其企业客户超过10000家,包括众多财富500强企业。

Databricks主要提数据智能分析服务,帮助企业、个人用户快速挖掘数据的商业价值。

原文和模型


【原文链接】 阅读原文 [ 1096字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...