拿 20 年前的苹果“古董”笔记本跑模型推理:九分之一现代 CPU 速度,但成功了!

AIGC动态6天前发布 ai-front
170 0 0
拿 20 年前的苹果“古董”笔记本跑模型推理:九分之一现代 CPU 速度,但成功了!

 

文章摘要


【关 键 词】 大模型旧硬件移植性能优化技术实验

软件工程师 Andrew Rossignol 成功在一台已有 20 年历史的 PowerBook G4 笔记本电脑上运行了生成式 AI 模型,展示了旧硬件与现代 AI 技术的兼容性。这台笔记本仅配备 1.5 GHz PowerPC G4 处理器和 1 GB 内存,但通过移植开源项目 llama2.c 并利用 PowerPC 的 AltiVec 矢量扩展,Rossignol 顺利完成了 TinyStories 110M Llama 2 大模型的推理任务。这一实验不仅证明了旧硬件仍具备运行现代 AI 技术的潜力,也为技术爱好者提供了新的探索方向。

Rossignol 在博客中详细介绍了实验的全过程。他首先选择了 Andrej Karpathy 的 llama2.c 项目,该项目仅使用一个 C 文件实现了 Llama 2 大模型的推理,无需任何硬件加速器。Rossignol 将其核心实现分叉为 ullm 项目,并对代码进行了多项改进,包括增强稳健性、抽象文件访问和内存分配机制,以及修复编译警告。这些改进使得代码更易于调试和测试,并为后续的移植奠定了基础。

在移植到 PowerPC 平台时,Rossignol 面临了大小端对齐和内存映射等技术挑战。通过将模型检查点和标记器从小端转换为大端,并对齐 16 字节内存,他成功解决了这些问题。此外,他还利用 AltiVec 矢量扩展优化了矩阵乘法运算,将推理速度提升了约 10%。尽管 PowerBook G4 的性能仅为现代硬件的九分之一,但这一成果仍然令人印象深刻,展示了旧硬件在特定条件下的潜力。

在性能测试中,Rossignol 对比了 PowerBook G4 和现代戴尔服务器的推理速度。结果显示,PowerBook G4 每秒生成 0.77 个 token,而戴尔服务器则为 6.91 个 token。虽然差距显著,但 PowerBook G4 的表现仍然证明了其能力。Rossignol 指出,矩阵乘法是制约推理速度的主要瓶颈,而 AltiVec 的优化则在一定程度上缓解了这一问题。

然而,由于 PowerPC G4 系统是 32 位架构,最大可寻址内存仅为 4 GB,因此无法运行更大的模型。Rossignol 表示,这一项目的主要目的是探索旧硬件的潜力,而非追求极致性能。通过这一实验,他不仅深入了解了大型语言模型的工作原理,也为技术社区提供了宝贵的经验和启示。

最终,Rossignol 认为这一项目已经达到了预期目标,并决定让他的 PowerBook G4 回归其原本的用途。这一实验不仅展示了技术创新的可能性,也为旧硬件的再利用提供了新的思路。

原文和模型


【原文链接】 阅读原文 [ 2189字 | 9分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...