3个月砸1000万美元肝出“最强”大模型?黑马Databricks:我们完虐Grok、Llama,还更开放

AIGC动态9个月前发布 ai-front
975 0 0
3个月砸1000万美元肝出“最强”大模型?黑马Databricks:我们完虐Grok、Llama,还更开放

 

文章摘要


【关 键 词】 DatabricksDBRX开源大模型AI预训练

美国AI初创公司Databricks近日宣布,其Mosaic Research团队开发的通用大模型DBRX将开源。DBRX的设计灵感来源于OpenAI的ChatGPT,Databricks表示,它花费了大约1000万美元和三个月的时间来训练DBRX,并声称其“在标准基准上优于所有现有的开源模型”。

DBRX是一套基于Transformer的纯解码器大语言模型(LLM),使用下一token预测方式进行训练。它使用细粒度的混合专家(MoE)架构,共有132B参数,其中36B参数在任何输入上均处于活动状态。DBRX的预训练使用到12T大小的文本与代码数据tokens。

DBRX在语言理解(MMLU)、编程(HumanEval)和数学(GSM8K)方面优于原有开源模型。在最终模型质量相同的情况下,训练混合专家的FLOP效率约为训练密集模型的2倍。从端到端角度出发,DBRX整体配方(包括预训练数据、模型架构和优化策略)完全能够与上一代MPT模型提供同等输出质量,但计算量却减少至约四分之一。

DBRX的训练过程包括预训练、后训练、评估、红队测试和精炼,全程历时三个月。为了构建DBRX,Databricks打造出一款未来客户也能用到的工具,使用Unity Catalog对训练数据进行管理与治理,同时采取收购而来的Lilac AI资产探索这些数据,并使用Apache Spark和Databricks notebooks清洗并处理这些数据。

目前,DBRX已经被整合至Databricks的生成式AI支持产品当中,包括SQL等应用,且早期表现已经超过了GPT-3.5 Turbo,足以向GPT-4 Trubo发起冲击。DBRX在RAG任务上同样力压GPT-3.5 Turbo以及其他各种开放模型。

据报道,OpenAI公司已经开始训练GPT-5,积极为今年年中的AI模型发布进行准备。据《商业内幕》报道,一旦训练完成,该系统还须经历多个阶段的安全测试。作为过程中的一部分,该机器人还须经历“红队测试”,即同时由内部和外部人员通过测试就其优点和短板给出反馈。同时,有关GPT-6的消息也在近日被广为报道。

原文和模型


【原文链接】 阅读原文 [ 3747字 | 15分钟 ]
【原文作者】 AI前线
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...