标签:预训练

苹果在小模型上还是非常领先的

AI领域中,小模型技术越来越受欢迎,因为这些模型可以在个人设备上运行,无需依赖云端大型数据中心。苹果最近推出了OpenELM项目,包括一系列小型AI语言模型,...

3个月砸1000万美元肝出“最强”大模型?黑马Databricks:我们完虐Grok、Llama,还更开放

美国AI初创公司Databricks近日宣布,其Mosaic Research团队开发的通用大模型DBRX将开源。DBRX的设计灵感来源于OpenAI的ChatGPT,Databricks表示,它花费了大...

Stability AI开源3B代码生成模型:可补全,还能Debug

本文报道了Stability AI 公司开源的小体量预训练模型 Stable Code Instruct 3B,该模型是一个基于 Stable Code 3B 的指令调整编码语言模型,能够处理各种任务...

仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM

新智元报道了Google Research的研究人员提出了一个时序预测基础模型TimesFM,该模型针对时序数据设计,输出序列长于输入序列。TimesFM在1000亿时间点数据上进...

大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

本文探讨了大模型性能与训练数据规模、模型架构等设计要素之间的关系,即Scaling Law。研究者们主要关注了迁移学习中的Scaling Law,即预训练数据集大小与任...