“知识蒸馏”的搜索结果

总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述
机器之心编辑部撰写的这篇文章主要讨论了大语言模型(LLMs)的知识蒸馏技术及其在研究和工业界中的应用。文章首先指出,尽管闭源LLMs如G...
英伟达玩转剪枝、蒸馏:把Llama 3.1 8B参数减半,性能同尺寸更强
Meta公司推出的Llama 3.1系列模型,包括一个405B的超大型模型和两个较小的模型,虽然性能卓越,但对计算资源的需求巨大。为解决这一问题...
英伟达开源新大模型:训练数据减少40倍,算力节省1.8倍
全球人工智能领域的领军企业英伟达(Nvidia)近期开源了两款基于Meta公司Llama-3.1 8B模型的大模型:Nemotron-4-Minitron-4B和Nemotron-...
谷歌推出通用视频模型:能精准分类、定位、检索等
谷歌的研究人员开发了一种名为VideoPrism的通用视频模型,该模型在视频领域的多种任务上展现出了卓越的性能。为了验证VideoPrism的性能...
清华汪玉教授团队支招:如何把“大”模型部署到“小”设备上 | Q福利
2024年,AI驱动的应用产品如GPT-4o等因其广泛的应用前景而受到广泛关注,这促使大量资源被投入到AI的基础建设中,包括算法研究、数据清...
单张A100全精度推理!谷歌明星开源模型Gemma 2上新9B/27B,挑战3140亿Grok-1
昨晚,谷歌正式发布了其最新的开源模型Gemma 2系列,包括Gemma 2 9B和Gemma 2 27B。这些模型旨在为全球研究和开发人员提供高效的部署工...
小红书怎么用大模型?顶会作者在线等你来聊
3. 袁沛文将介绍在ACL 2024上发表的两篇论文。第一篇《BatchEval: Towards Human-like Text Evaluation》提出了BatchEval方法,能够以更...
OpenAI:俩二;Google:四个王
Google在其I/O开发者大会上展示了一系列AI技术的进步,特别是其Gemini模型的更新。这些更新包括了Gemini 1.5 Flash的推出,这是一个轻量...
为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新
科大讯飞近期发布了讯飞星火大模型 V3.5 的新功能,其核心是推出了首个支持长文本、长图文、长语音的大模型,旨在提升用户在各种场景下...
首次攻克「图基础模型」三大难题!港大开源OpenGraph:零样本学习适配多种下游任
香港大学发布了一种名为OpenGraph的通用图基座模型,该模型能够从大型语言模型(LLM)中蒸馏零样本图泛化能力。图学习技术能够对复杂的...
1 2