内存优化 | 学习AIGC

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

KAIST、Mila和谷歌DeepMind团队近期发布了一种名为Mixture-of-Recursions（MoR）的全新大型语言模型（LLM）架构，该架构被认为有潜力成为Transformer的替代者...

AIGC动态

2个月前

Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？

普林斯顿大学陈丹琦团队提出统一框架解决长上下文语言模型中的KV缓存内存瓶颈问题。随着'长思维链'等技术的兴起，模型需要处理数万token的输入，导致基于Tran...

AIGC动态

3个月前

DeepSeek发布最新论文，5大杀手锏让大模型训练、推理暴涨

全球著名开源大模型平台DeepSeek发布了其最新开源模型V3的论文，重点探讨了在不牺牲性能的前提下，如何通过硬件架构和模型设计的创新突破硬件瓶颈。随着OpenA...

AIGC动态

4个月前

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

近期，阶跃星辰与清华大学等机构合作的论文《Multi-matrix Factorization Attention》提出了一种新型注意力机制架构——多矩阵分解注意力（MFA）及其变体MFA-Ke...

AIGC动态

8个月前

给机器人装上「虫脑」？非Transformer液态神经网络终于来了！MIT CSAIL负责人创业成果

Liquid AI是一家专注于开发新型人工智能模型的初创公司，由MIT计算机科学与人工智能实验室（CSAIL）的前研究人员创立。该公司旨在超越现有的生成式预训练Tran...

AIGC动态

12个月前

一行代码训练成本再降30%，AI大模型混合精度训练再升级｜开源

AI大模型开发系统Colossal-AI实现了混合精度训练的升级，支持BF16(O2)与FP8(O1)的新一代混合精度训练方案。这种升级通过FP8的独特数值表示方式，在保持精度的...

AIGC动态

12个月前

麻省理工提出“跨层注意力”，极大优化Transformer缓存

在人工智能生成内容（AIGC）领域，Transformer架构因其在大语言模型（LLM）中的关键作用而备受关注。然而，随着模型参数的指数级增长，传统的Transformer架构...

AIGC动态

1年前 (2024)

极大降低大模型训练内存需求，Meta等推出高效方法

该文章介绍了一个名为GaLore的高效训练方法，旨在解决大型语言模型在预训练过程中对内存需求过高的问题。研究人员发现，在训练过程中，梯度矩阵会自然呈现出...

AIGC动态

2年前 (2024)

陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

陈丹琦团队发布了一种名为CEPE（并行编码上下文扩展）的新方法，该方法通过添加小型编码器和交叉注意力模块，扩展了预训练和指令微调模型的上下文窗口。这种...

AIGC动态

2年前 (2024)

标签：内存优化

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？

DeepSeek发布最新论文，5大杀手锏让大模型训练、推理暴涨

阶跃公开了自家新型注意力机制：KV缓存消耗直降93.7%，性能不减反增

给机器人装上「虫脑」？非Transformer液态神经网络终于来了！MIT CSAIL负责人创业成果

一行代码训练成本再降30%，AI大模型混合精度训练再升级｜开源

麻省理工提出“跨层注意力”，极大优化Transformer缓存

极大降低大模型训练内存需求，Meta等推出高效方法

陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

热门网址

标签：内存优化

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址