开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有

AIGC动态1年前 (2024)发布 almosthuman2014

1,853 0 0

文章摘要

【关键词】 DBRX开源、混合专家模型、人工智能、大数据、Databricks

Databricks，一家大数据人工智能公司，开源了一款名为DBRX的通用大模型。

这款模型拥有1320亿参数，是一种混合专家模型（MoE）。

DBRX的基础和微调版本已经在GitHub和Hugging Face上发布，可用于研究和商业用途。

DBRX在语言理解、编程、数学和逻辑等方面轻松击败了目前业内领先的开源大模型，如LLaMA2-70B、Mixtral和Grok-1。

同时，DBRX也在大多数基准测试上超过了GPT-3.5，并在质量上可与Gemini 1.0 Pro和Mistral Medium竞争，同时速度大大加快。

DBRX的效率很高，它是基于斯坦福MegaBlocks开源项目构建的混合专家模型，平均只用激活360亿参数来处理token，可以实现极高的每秒处理速度。

它的推理速度几乎比LLaMA2-70B快两倍，总参数和活动参数数量比Grok小约40%。

DBRX是一种基于Transformer的仅解码器大语言模型（LLM），使用细粒度的专家混合（MoE）架构，共有1320亿参数，其中36B个参数在任何输入上都处于激活状态。

该模型是在12T文本和代码数据token上预训练而成，最大上下文长度高达32k。

DBRX在综合基准、编程和数学基准以及MMLU方面表现优越。

在多个基准测试中，DBRX Instruct超过了GPT-3.5，或者在某些基准上与GPT-3.5相当。

DBRX Instruct在与Gemini 1.0 Pro和Mistral Medium比较后，取得了具有竞争力的结果。

DBRX Instruct训练上下文窗口大小为32K token。

在一系列长上下文基准测试上，DBRX Instruct表现比GPT-3.5 Turbo好；DBRX Instruct和Mixtral Instruct的整体性能相似。

DBRX是通过3.2Tbps的Infiniband连接3072块NVIDIA H100进行训练的，训练时间花费超过3个月，费用约1000万美元。

构建DBRX的主要过程包括预训练、训练后调整、评估、red team和精炼等过程。

Databricks副总裁Naveen Rao表示，随着DBRX的研发团队Mosaic Labs不断推动生成式AI研究，Databricks将持续完善DBRX并发布新版本。

原文和模型

【原文链接】 阅读原文 [ 2779字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # GPT-GPTs # 大模型 # Azure # Databricks # DBRX开源 # gpt-4-32k # 人工智能 # 大数据 # 机器之心 # 混合专家模型

文章版权归作者所有，未经允许请勿转载。

AGI前夜的思考：2025年将出现真正的AI智能体，年轻人需要快速适应

机器之心

1,861

一口气读完甄嬛传剧本、大部头医书：月之暗面200万字上下文Kimi开启内测

机器之心

1,781

N-S方程问题有解了？与黎曼猜想并列，千禧年数学难题胜利在望

机器之心

2,422

一项人工智能法案，为何让硅谷陷入恐慌？| Q福利

AI前线

1,390

美国芯片行业现状

admin

385

音乐ChatGPT 2.0来了！AI作曲家被踢馆，亲测周杰伦爆款大翻车

新智元

2,855

暂无评论

暂无评论...

开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有

文章摘要

原文和模型

从健身到泛运动，Keep 还有哪些野心？

CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

相关文章

暂无评论

热门网址

热门文章

开源大模型王座再易主，1320亿参数DBRX上线，基础、微调模型都有

文章摘要

原文和模型

从健身到泛运动，Keep 还有哪些野心？

CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章