Llama提速500%!谷歌美女程序员手搓矩阵乘法内核

AIGC动态7个月前发布 AIera
817 0 0
Llama提速500%!谷歌美女程序员手搓矩阵乘法内核

 

文章摘要


【关 键 词】 程序员性能提升Llamafile跨平台开源项目

Justine Tunney,一位天才程序员和谷歌的工程师,最近通过更新Llamafile的代码,显著提高了Llama的推理速度。

她手动编写了84个新的矩阵乘法内核,使得Llamafile在CPU上的推理速度提升了30%至500%,尤其在ARMv8.2+、Intel和AVX512计算机上的改进最为显著。

这一成就甚至超过了由多家大公司资助的开源BLAS项目BLIS,引起了业界的广泛关注。

Llamafile是一个本地LLM项目,由Justine Tunney与Mozilla团队合作开发,使用Cosmopolitan Libc技术,可以在多个操作系统上运行。

这个项目的优势在于,它不需要依赖昂贵的CUDA内核,只需适量的RAM即可在旧CPU上运行,这在GPU短缺的情况下尤其有价值。

项目的代码已经在GitHub上公开,可以在多种操作系统上编译。

Justine Tunney在性能提升方面的努力不仅限于Llamafile。

她还在尝试支持新的数据格式,如FP16和BF16,以减少内存占用,并已经在Raspberry Pi上成功运行了TinyLlama。

她的工作不仅提升了Llamafile的性能,也为不同平台上的性能优化提供了示范。

在具体的硬件平台上,Justine Tunney的优化成果同样显著。

例如,在老款HP主机上,她通过引入mmap()支持和代码优化,显著提升了性能。

在树莓派上,新版CPU的支持使得性能提升了10倍。

在游戏主机Alderlake CPU上,float16的性能提高了五倍。

而在苹果的Mac Studio上,尽管提升性能较为困难,但Justine Tunney的工作仍然取得了进展。

对于AMD Ryzen Threadripper PRO 7995WX,她的优化使得LLaMA在Zen4上以2.8倍的速度运行。

Justine Tunney的职业生涯同样令人瞩目。

她14岁开始为黑客社区开发软件,后来创造了多个跨平台的项目,如RedBean、cosmopolitan libc和sectorLisp。

她的工作不仅在技术上具有创新性,而且在实用性和性能上都有显著的成就。

在谷歌,她也为多个知名项目,包括TensorFlow、Bazel和Nomulus,做出了重要贡献。

Justine Tunney的成就和贡献得到了业界的认可和赞誉。

她的工作不仅推动了开源项目的发展,也为性能优化和跨平台兼容性提供了新的可能性。

她的创新精神和技术才能使她成为了当之无愧的行业领袖。

原文和模型


【原文链接】 阅读原文 [ 1646字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...