吊打一切开源模型！DBRX真的有那么神奇吗？

AIGC动态1年前 (2024)发布 Si-Planet

2,447 0 0

文章摘要

自从Grok-1公开发布后，数据公司 Databricks迅速推出了自己的大模型DBRX，宣称在行业基准上超越了所有开源模型，包括Grok-1。DBRX的总参数量为1320亿，其中360亿参数在处理任何输入时处于激活状态，并已在1.2万亿个文本和代码数据tokens上进行了预训练。

Databricks强调DBRX的“细粒度特性”，这意味着模型能够将任务分解得非常详细和具体，提高了模型对复杂情况的应对能力。DBRX采用混合专家（MoE）架构，拥有16个专家，每次选择4个参与运算，相较于其他模型如Mixtral-8x7B和Grok-1，提供了更多的专家组合可能性，从而提升模型性能。

Databricks的DBRX建立在MegaBlocks系统之上，这是一个专为GPU上高效训练MoE模型而设计的系统。MegaBlocks通过对MoE计算的重构，解决了传统MoE在动态路由处理上的局限性，避免了牺牲模型质量或硬件效率的权衡。它通过块稀疏操作，专注于处理有信息量的数据，忽略零值，从而提高了计算效率。此外，MegaBlocks还包含了高效率块稀疏矩阵乘法内核，这些内核专门处理块稀疏矩阵，实现了高效的乘法运算，确保了在GPU上进行模型训练时的高效计算和资源利用。

然而，DBRX的高性能也带来了高显存需求，标准配置需要300多G显存，相当于4块英伟达H100，这使得普通计算机难以运行。即使是在云服务上，DBRX的硬件要求也非常高，例如谷歌云上的DBRX实例使用的是完整的一颗英伟达H100。

值得注意的是，尽管DBRX被称为开源，但严格意义上的开源应该包括软件的源代码、训练数据等对公众完全开放，而DBRX并不完全符合这一定义。Databricks本身是一家提供数据服务的公司，其业务包括数据管理、清洗、分析等。2023年11月，Databricks发布了Lakehouse产品，这是一种结合了数据湖和数据仓库优势的数据管理平台，旨在提供一个统一的数据存储与分析环境。DBRX的开发得益于Lakehouse平台，同时也能通过MegaBlocks系统的应用来反哺Lakehouse，展现了Databricks在数据服务和人工智能领域的深度融合。