1320亿参数，性能超LLaMA2、Grok-1！开源大模型DBRX

AIGC动态1年前 (2024)发布 AIGCOPEN

2,342 0 0

文章摘要

【关键词】 Databricks、DBRX、大模型、MoE模型、MPT-7B

Databricks，一家著名的数据和AI平台，于3月28日正式开源了其大模型 DBRX。

DBRX是一个专家混合模型（MoE），拥有1320亿参数，能生成文本/代码、数学推理等，有基础和微调两种模型。

根据公布的测试数据，DBRX的性能超过了LLaMA2-70B和马斯克最近开源的Grok-1，推理效率比LLaMA2-70B快2倍，总参数却只有Grok-1的三分之一，是一款功能强算力消耗低的大模型。

Databricks在2023年6月26日以13亿美元收购了大模型开源平台MosaicML，以抓住生成式AI的风口。

MosaicML在2023年5月5日发布了类ChatGPT开源大语言模型MPT-7B，该项目具备可商业化、高性能、算力消耗低、1T训练数据等技术优势。

MPT-7B只进行了大约10天的训练，零人工干预，训练成本仅用了20万美元。性能却打败了LLaMA-7B、StablelM-7B 、Cerebras-13B等当时知名开源模型。

目前，MPT-7B的下载量已超过300万次，而Databricks此次发布的DBRX在MPT-7B基础之上进行了大幅度优化并且将算力需求降低了4倍。

DBRX是一款基于Transformer的MoE架构大模型，1320亿参数中的360亿参数处于长期激活状态。

这与其它开源的MoE类型模型如Mixtral、Grok-1相比，DBRX使用了数量更多的小专家模型。

DBRX有16个专家并选择4个，而Mixtral和Grok-1有8个专家并选择了2个。

DBRX使用了12T的文本和代码数据（支持中文），支持 32k上下文窗口，并在3072 个英伟达的 H100 上进行了3个月的预训练。

MoE模型全称为Mixture of Experts，其核心原理是将一个庞大的神经网络分解为多个相对独立的小型子网络(即专家),每个专家负责处理输入数据的某些方面。

这种架构设计使得MoE模型能够高效利用计算资源,避免对所有参数进行无谓的计算。主要包括门控制机制、专家网络和聚合器三大模块。

Databricks创立于2013年，总部位于美国旧金山，在全球多个国家、地区设有办事处。

其企业客户超过10000家，包括众多财富500强企业。

Databricks主要提数据智能分析服务，帮助企业、个人用户快速挖掘数据的商业价值。

原文和模型

【原文链接】 阅读原文 [ 1096字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # GPT-GPTs # 大模型 # AIGC开放社区 # Azure # Databricks # DBRX # gpt-4-32k # MoE模型 # MPT-7B # 大模型

文章版权归作者所有，未经允许请勿转载。

国产大模型「五强争霸」，决战AGI！

新智元

1,104

通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

量子位

844

Figure AI获48亿元融资，并与OpenAI一起开发AGI机器人

AIGC开放社区

2,010

独家对话姚欣：如果按DeepSeek高达545%成本利润率，全行业就都别干了｜钛媒体AGI

钛媒体AGI

695

李飞飞主讲，斯坦福2024 CS231n开课，依旧座无虚席

机器之心

2,553

以加代乘？华为数学家出手，昇腾算子的高能设计与优化，性能提升30%！

机器之心

909

暂无评论

暂无评论...

1320亿参数，性能超LLaMA2、Grok-1！开源大模型DBRX

文章摘要

原文和模型

Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

钉钉AI：好险，差点就被长文本卷到

相关文章

暂无评论

热门网址

热门文章

1320亿参数，性能超LLaMA2、Grok-1！开源大模型DBRX

文章摘要

原文和模型

Claude 3再次登顶！化学专业一骑绝尘，全面碾压GPT-4

钉钉AI：好险，差点就被长文本卷到

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章