标签：无需反向

算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

最近，一项名为“noise_step”的新技术由Will小哥提出，该技术允许模型在1.58-bit低精度下直接训练，无需反向传播或动量加速，从而大幅降低算力和存储消耗。这...

AIGC动态

12个月前