文章摘要
【关 键 词】 人工智能、数据公司、Databricks、大模型、技术优化
自从Grok-1公开发布后,数据公司Databricks迅速推出了自己的大模型DBRX,宣称在行业基准上超越了所有开源模型,包括Grok-1。DBRX的总参数量为1320亿,其中360亿参数在处理任何输入时处于激活状态,并已在1.2万亿个文本和代码数据tokens上进行了预训练。
Databricks强调DBRX的“细粒度特性”,这意味着模型能够将任务分解得非常详细和具体,提高了模型对复杂情况的应对能力。DBRX采用混合专家(MoE)架构,拥有16个专家,每次选择4个参与运算,相较于其他模型如Mixtral-8x7B和Grok-1,提供了更多的专家组合可能性,从而提升模型性能。
Databricks的DBRX建立在MegaBlocks系统之上,这是一个专为GPU上高效训练MoE模型而设计的系统。MegaBlocks通过对MoE计算的重构,解决了传统MoE在动态路由处理上的局限性,避免了牺牲模型质量或硬件效率的权衡。它通过块稀疏操作,专注于处理有信息量的数据,忽略零值,从而提高了计算效率。此外,MegaBlocks还包含了高效率块稀疏矩阵乘法内核,这些内核专门处理块稀疏矩阵,实现了高效的乘法运算,确保了在GPU上进行模型训练时的高效计算和资源利用。
然而,DBRX的高性能也带来了高显存需求,标准配置需要300多G显存,相当于4块英伟达H100,这使得普通计算机难以运行。即使是在云服务上,DBRX的硬件要求也非常高,例如谷歌云上的DBRX实例使用的是完整的一颗英伟达H100。
值得注意的是,尽管DBRX被称为开源,但严格意义上的开源应该包括软件的源代码、训练数据等对公众完全开放,而DBRX并不完全符合这一定义。Databricks本身是一家提供数据服务的公司,其业务包括数据管理、清洗、分析等。2023年11月,Databricks发布了Lakehouse产品,这是一种结合了数据湖和数据仓库优势的数据管理平台,旨在提供一个统一的数据存储与分析环境。DBRX的开发得益于Lakehouse平台,同时也能通过MegaBlocks系统的应用来反哺Lakehouse,展现了Databricks在数据服务和人工智能领域的深度融合。
原文和模型
【原文链接】 阅读原文 [ 1945字 | 8分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆