
文章摘要
【关 键 词】 并行计算、模型优化、推理效率、边缘设备、开源代码
阿里巴巴研究团队与浙江大学合作提出了一种新的并行计算缩放定律(ParScale),该定律通过在训练和推理阶段增加并行计算量,显著提升大模型的能力,同时保持模型参数不变。与传统的参数扩展方法相比,ParScale 在实现相同性能提升的情况下,内存增加量仅为前者的4.5%,延迟增加量为16.7%。这一发现不仅降低了训练成本,还为低资源场景中的模型部署提供了新的可能性。
ParScale 的核心思想是通过引入多个并行流,将单一输入转换为多个输入,并在模型的不同路径中进行并行处理,最后通过动态加权平均方法将结果合并。这一方法避免了传统扩展策略中显存和时间消耗过大的问题,适用于多种模型结构、优化过程、数据或任务。研究人员还提出了一种两阶段后训练策略,通过在少量 token 上进行微调,进一步降低了训练成本。
在多个下游基准测试中,ParScale 展示了显著的性能提升,尤其是在数学、编程等需要强推理能力的任务中。当并行流数量增加到8时,模型在编码任务中的性能提升了4.3%,在数学任务中提升了7.3%,在常识任务中提升了2.6%。此外,ParScale 在已经经过全面训练的模型上仍能带来性能提升,证明了其动态并行缩放的可行性。
ParScale 的应用不仅限于集中式服务器,还非常适合资源匮乏的边缘设备,如智能手机、智能汽车和机器人。与参数扩展相比,ParScale 在这些设备上的内存和延迟优势尤为明显,使其成为未来边缘部署的有力候选技术。研究人员计划进一步探索 ParScale 在更多模型架构和更大数据集上的应用,以期实现更高效、高性能的模型。
目前,ParScale 的相关代码已在 GitHub 上开源,用户可以通过 HuggingFace 的 Space 直接体验这一技术。研究人员表示,ParScale 不仅为模型优化提供了新的视角,还展示了并行计算在机器学习中的巨大潜力。
原文和模型
【原文链接】 阅读原文 [ 2073字 | 9分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★