全球最强开源模型一夜易主，1320亿参数推理飙升2倍！

AIGC动态1年前 (2024)发布 AIera

2,102 0 0

文章摘要

【关键词】 DBRX、开源模型、MoE架构、Databricks、模型训练

Databricks公司发布了全球最强开源模型DBRX，超越了Llama 2、Mixtral和Grok-1。DBRX采用了细粒度MoE架构，每次输入仅使用360亿参数，实现了更快的每秒token吞吐量，推理速度比LLaMA 2-70B快了2倍。训练成本直接砍半，只用了1000万美元和3100块H100，Databricks就在2个月内完成了DBRX的开发。DBRX在语言理解、编程、数学和逻辑方面轻松击败了开源模型LLaMA2-70B、Mixtral，以及Grok-1，甚至在整体性能上超越了GPT-3.5。

DBRX是一种基于Transformer纯解码器的大模型，采用下一token预测进行训练。它采用的是细粒度专家混合（MoE）架构，也就是具有更多的专家模型。DBRX大约有1320亿个参数，但处理一个典型查询，平均只需激活约360亿个参数，这就提高了底层硬件的利用率，将训练效率提高了30%到50%。DBRX还使用了旋转位置编码（RoPE）、门控线性单元（GLU）和分组查询注意力（GQA），并使用tiktoken存储库中提供的GPT-4分词器。

DBRX模型在12万亿Token的文本和代码进行预训练，支持的最大上下文长度为32k。研究人员估计，这些数据比用来预训练MPT系列模型的数据至少好2倍。这个新的数据集，使用全套数据库工具开发，包括用于数据处理的ApacheSpark™和Databricks笔记本，用于数据管理和治理的Unity Catalog，以及用于实验追踪的MLFlow。团队使用了「课程学习」（curriculum learning）进行预训练，并在训练过程中改变数据组合，大大提高了模型质量。

DBRX在综合基准、编程和数学基准以及MMLU上，刷新了开源AI的SOTA。与闭源模型GPT-3.5相比，DBRX Instruct的性能全面超越了它，还可与Gemini 1.0 Pro和Mistral Medium相较量。DBRX Instruct采用高达32K token上下文进行了训练。总体而言，MoE模型的推理速度，它们的总参数所显示的要快。这是因为它们对每个输入使用的参数相对较少。DBRX推理吞吐量是132B非MoE模型的2-3倍。

企业可以在Databricks平台上访问DBRX，能在RAG系统中利用长上下文功能，还可以在自己的私有数据上构建定制的DBRX模型。而开源社区可以通过GitHub存储库和Hugging Face访问DBRX。