文章摘要
【关 键 词】 程序员、性能提升、Llamafile、跨平台、开源项目
Justine Tunney,一位天才程序员和谷歌的工程师,最近通过更新Llamafile的代码,显著提高了Llama的推理速度。
她手动编写了84个新的矩阵乘法内核,使得Llamafile在CPU上的推理速度提升了30%至500%,尤其在ARMv8.2+、Intel和AVX512计算机上的改进最为显著。
这一成就甚至超过了由多家大公司资助的开源BLAS项目BLIS,引起了业界的广泛关注。
Llamafile是一个本地LLM项目,由Justine Tunney与Mozilla团队合作开发,使用Cosmopolitan Libc技术,可以在多个操作系统上运行。
这个项目的优势在于,它不需要依赖昂贵的CUDA内核,只需适量的RAM即可在旧CPU上运行,这在GPU短缺的情况下尤其有价值。
项目的代码已经在GitHub上公开,可以在多种操作系统上编译。
Justine Tunney在性能提升方面的努力不仅限于Llamafile。
她还在尝试支持新的数据格式,如FP16和BF16,以减少内存占用,并已经在Raspberry Pi上成功运行了TinyLlama。
她的工作不仅提升了Llamafile的性能,也为不同平台上的性能优化提供了示范。
在具体的硬件平台上,Justine Tunney的优化成果同样显著。
例如,在老款HP主机上,她通过引入mmap()支持和代码优化,显著提升了性能。
在树莓派上,新版CPU的支持使得性能提升了10倍。
在游戏主机Alderlake CPU上,float16的性能提高了五倍。
而在苹果的Mac Studio上,尽管提升性能较为困难,但Justine Tunney的工作仍然取得了进展。
对于AMD Ryzen Threadripper PRO 7995WX,她的优化使得LLaMA在Zen4上以2.8倍的速度运行。
Justine Tunney的职业生涯同样令人瞩目。
她14岁开始为黑客社区开发软件,后来创造了多个跨平台的项目,如RedBean、cosmopolitan libc和sectorLisp。
她的工作不仅在技术上具有创新性,而且在实用性和性能上都有显著的成就。
在谷歌,她也为多个知名项目,包括TensorFlow、Bazel和Nomulus,做出了重要贡献。
Justine Tunney的成就和贡献得到了业界的认可和赞誉。
她的工作不仅推动了开源项目的发展,也为性能优化和跨平台兼容性提供了新的可能性。
她的创新精神和技术才能使她成为了当之无愧的行业领袖。
原文和模型
【原文链接】 阅读原文 [ 1646字 | 7分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆