谷歌发布大模型数据筛选方法：效率提升13倍，算力降低10倍

AIGC动态1年前 (2024)发布 AIGCOPEN

2,315 0 0

文章摘要

在AIGC领域，大语言模型（LLM）的发展和应用落地对训练数据的需求日益增长。然而，现有的数据处理流程依赖人工筛选，成本高昂且效率低下。谷歌Deepmind的研究人员为此提出了一种创新的数据筛选方法JEST，旨在加速多模态大模型的学习效率。JEST通过联合选择数据批次，将数据筛选效率提升13倍，同时降低10倍的算力需求。

JEST算法的核心在于使用模型为基础的评分函数，提供硬学习者、易参考和可学习性三种评分策略。硬学习者策略选择模型尚未掌握的样本，易参考策略选择对预训练参考模型而言损失较低的样本，而可学习性策略结合了前两者的优点，选择既未被学习者掌握又对参考模型相对简单的样本。这种策略在大规模学习中即使对单个例子进行优先级排序也能加速训练过程。

为了进一步提升JEST算法的性能和降低算力需求，研究人员采用了模型近似和多分辨率训练两种方法。模型近似通过降低图像分辨率和减少模型层的计算来减少每次迭代所需的算力。多分辨率训练允许模型在不同分辨率下处理数据，提高模型的灵活性、效率和泛化能力。

在ImageNet、COCO等数据集上，JEST算法在图像分类、零样本学习、图像到文本的检索和文本到图像检索等任务上进行了测试。结果显示，JEST在多个任务上都取得了显著的数据筛选效率，当过滤90%的数据时，JEST仅需使用6700万样本即可达到传统方法使用30亿样本的性能水平。此外，JEST还能帮助大模型提升约6%的性能。

总之，JEST算法为多模态大模型的训练提供了一种高效的数据筛选方法，通过创新的评分策略和模型近似技术，显著提高了数据筛选效率和降低了算力需求，为AIGC领域的研究和应用提供了有力支持。