标签:无需反向

算力直降97%,GPT-3存储只用20MB?!这篇直接在1.58-bit下训练模型的新论文火了

最近,一项名为“noise_step”的新技术由Will小哥提出,该技术允许模型在1.58-bit低精度下直接训练,无需反向传播或动量加速,从而大幅降低算力和存储消耗。这...