开源大模型王座再易主,1320亿参数DBRX上线,基础、微调模型都有
文章摘要
【关 键 词】 DBRX开源、混合专家模型、人工智能、大数据、Databricks
Databricks,一家大数据人工智能公司,开源了一款名为DBRX的通用大模型。
这款模型拥有1320亿参数,是一种混合专家模型(MoE)。
DBRX的基础和微调版本已经在GitHub和Hugging Face上发布,可用于研究和商业用途。
DBRX在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型,如LLaMA2-70B、Mixtral和Grok-1。
同时,DBRX也在大多数基准测试上超过了GPT-3.5,并在质量上可与Gemini 1.0 Pro和Mistral Medium竞争,同时速度大大加快。
DBRX的效率很高,它是基于斯坦福MegaBlocks开源项目构建的混合专家模型,平均只用激活360亿参数来处理token,可以实现极高的每秒处理速度。
它的推理速度几乎比LLaMA2-70B快两倍,总参数和活动参数数量比Grok小约40%。
DBRX是一种基于Transformer的仅解码器大语言模型(LLM),使用细粒度的专家混合(MoE)架构,共有1320亿参数,其中36B个参数在任何输入上都处于激活状态。
该模型是在12T文本和代码数据token上预训练而成,最大上下文长度高达32k。
DBRX在综合基准、编程和数学基准以及MMLU方面表现优越。
在多个基准测试中,DBRX Instruct超过了GPT-3.5,或者在某些基准上与GPT-3.5相当。
DBRX Instruct在与Gemini 1.0 Pro和Mistral Medium比较后,取得了具有竞争力的结果。
DBRX Instruct训练上下文窗口大小为32K token。
在一系列长上下文基准测试上,DBRX Instruct表现比GPT-3.5 Turbo好;DBRX Instruct和Mixtral Instruct的整体性能相似。
DBRX是通过3.2Tbps的Infiniband连接3072块NVIDIA H100进行训练的,训练时间花费超过3个月,费用约1000万美元。
构建DBRX的主要过程包括预训练、训练后调整、评估、red team和精炼等过程。
Databricks副总裁Naveen Rao表示,随着DBRX的研发团队Mosaic Labs不断推动生成式AI研究,Databricks将持续完善DBRX并发布新版本。
原文和模型
【原文链接】 阅读原文 [ 2779字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★