标签:内存效率
非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造
MIT初创团队Liquid AI推出了一种新型架构模型LFM(Liquid Foundation Model),在性能上超越了同等规模的Transformer模型如Llama3.2。LFM模型包含1.3B和3B两...
MIT系初创打破Transformer霸权!液体基础模型刷新SOTA,非GPT架构首次显著超越Transformer
MIT系初创公司Liquid AI推出了一种新型多模态非Transformer模型——液体基础模型LFM,该模型在基准测试中超越了现有的Transformer模型,成为新的SOTA(State of...
开创性CVM算法破解40多年计数难题!计算机科学家掷硬币算出「哈姆雷特」独特单词
计算机科学家们提出了一种名为CVM的新算法,用以估算数据流中不同元素的数量。该算法利用随机性,仅需记忆少量条目,便能近似计算长列表中不同条目的总数。这...
田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型
摘要:本文报道了Meta FAIR的田渊栋及其团队最新研究成果,提出了一种名为GaLore的内存高效的LLM训练方法。该方法通过Gradient Low-Rank Projection实现了在...