标签:存储效率

Llama架构比不上GPT2?神奇token提升10倍记忆?

这篇文章主要介绍了朱泽园和李远志最新研究的内容,标题为《语言模型物理学 Part 3.3:知识的 Scaling Laws》。他们通过海量实验总结了12条定律,为语言模型...