知识蒸馏 | 学习AIGC

精度效率双冠王！时序预测新范式TimeDistill：跨架构知识蒸馏，全面超越SOTA

时序预测领域面临的核心挑战在于如何在保证预测精度的同时降低计算成本。传统的复杂模型如Transformer和CNN虽然在精度上表现优异，但计算开销较大，难以满足...

AIGC动态

6个月前

苹果研究人员提出的蒸馏扩展定律为量化评估知识蒸馏效果提供了理论框架。该定律通过计算预算在教师模型与学生模型之间的分配关系，能够预测不同配置下学生模...

AIGC动态

7个月前

Meta公司推出的Llama 3.1系列模型，包括一个405B的超大型模型和两个较小的模型，虽然性能卓越，但对计算资源的需求巨大。为解决这一问题，业界开始关注小型语...

AIGC动态

1年前 (2024)

全球人工智能领域的领军企业英伟达（Nvidia）近期开源了两款基于Meta公司Llama-3.1 8B模型的大模型：Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。这两...

AIGC动态

1年前 (2024)

机器之心编辑部撰写的这篇文章主要讨论了大语言模型（LLMs）的知识蒸馏技术及其在研究和工业界中的应用。文章首先指出，尽管闭源LLMs如GPT-4、Gemini和Claude...

AIGC动态

2年前 (2024)

### 摘要总结清华大学和哈尔滨工业大学的研究团队提出了一种名为OneBit的大模型1bit极限压缩框架，实现了大模型权重压缩超过90%的同时保留83%的能力。这一突...

AIGC动态

2年前 (2024)