文章摘要
【关 键 词】 Databricks、DBRX、开源大模型、AI、预训练
美国AI初创公司Databricks近日宣布,其Mosaic Research团队开发的通用大模型DBRX将开源。DBRX的设计灵感来源于OpenAI的ChatGPT,Databricks表示,它花费了大约1000万美元和三个月的时间来训练DBRX,并声称其“在标准基准上优于所有现有的开源模型”。
DBRX是一套基于Transformer的纯解码器大语言模型(LLM),使用下一token预测方式进行训练。它使用细粒度的混合专家(MoE)架构,共有132B参数,其中36B参数在任何输入上均处于活动状态。DBRX的预训练使用到12T大小的文本与代码数据tokens。
DBRX在语言理解(MMLU)、编程(HumanEval)和数学(GSM8K)方面优于原有开源模型。在最终模型质量相同的情况下,训练混合专家的FLOP效率约为训练密集模型的2倍。从端到端角度出发,DBRX整体配方(包括预训练数据、模型架构和优化策略)完全能够与上一代MPT模型提供同等输出质量,但计算量却减少至约四分之一。
DBRX的训练过程包括预训练、后训练、评估、红队测试和精炼,全程历时三个月。为了构建DBRX,Databricks打造出一款未来客户也能用到的工具,使用Unity Catalog对训练数据进行管理与治理,同时采取收购而来的Lilac AI资产探索这些数据,并使用Apache Spark和Databricks notebooks清洗并处理这些数据。
目前,DBRX已经被整合至Databricks的生成式AI支持产品当中,包括SQL等应用,且早期表现已经超过了GPT-3.5 Turbo,足以向GPT-4 Trubo发起冲击。DBRX在RAG任务上同样力压GPT-3.5 Turbo以及其他各种开放模型。
据报道,OpenAI公司已经开始训练GPT-5,积极为今年年中的AI模型发布进行准备。据《商业内幕》报道,一旦训练完成,该系统还须经历多个阶段的安全测试。作为过程中的一部分,该机器人还须经历“红队测试”,即同时由内部和外部人员通过测试就其优点和短板给出反馈。同时,有关GPT-6的消息也在近日被广为报道。
原文和模型
【原文链接】 阅读原文 [ 3747字 | 15分钟 ]
【原文作者】 AI前线
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★★