破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍

AIGC动态1年前 (2024)发布 AIera

3,108 0 0

破解ChatGPT惊人耗电！DeepMind新算法训练提效13倍，能耗暴降10倍

文章摘要

谷歌DeepMind研究团队提出了一种名为JEST（多模态对比学习与联合示例选择）的新算法，旨在解决大型语言模型（LLM）训练过程中的高能耗问题。JEST算法通过优化数据选择过程，显著减少了AI训练所需的计算资源和时间。与传统方法相比，JEST在迭代次数上减少了13倍，在计算量上减少了10倍，有望重塑AI的未来。

JEST算法的核心在于从大规模数据集中筛选出高质量的数据子集，以提高训练效率。它采用了一种可学习性评分机制，结合了模型当前状态和预训练参考模型的评分，从而更有效地评估数据点的重要性。这种方法不仅提高了数据筛选的准确性，还减少了对小型模型的依赖，降低了计算成本。

在实验中，JEST算法在WebLI数据集上表现出色，该数据集包含十亿规模的英语图像-文本对。通过使用JEST算法，研究人员能够在训练数据量减少13.1倍的情况下达到与原有模型相同的准确率，同时实现了近10倍的FLOP效率提升。此外，JEST算法还成功应用于多模态学习任务，如ImageNet 0-Shot和10-Shot分类以及COCO图像到文本和文本到图像的top-1检索，展现了其在不同场景下的广泛适用性。

JEST算法的提出，为AI训练过程中的能耗问题提供了一种有效的解决方案。通过优化数据选择和训练过程，JEST不仅提高了AI模型的训练效率，还有助于降低数据中心的能源消耗，推动AI技术的可持续发展。这一成果得到了业界的广泛关注和认可，预示着AI领域的新突破。