反转了？在一场新较量中，号称替代MLP的KAN只赢一局

AIGC动态1年前 (2024)发布 almosthuman2014

2,354 0 0

文章摘要

【关键词】 多层感知器、Kolmogorov–Arnold Networks、激活函数、机器学习、符号公式表示

多层感知器（MLP）作为深度学习模型的基本组成部分，在机器学习领域具有不可替代的地位。然而，MLP存在一些局限性，如难以解释的表示和网络规模的扩展困难。Kolmogorov–Arnold Networks（KAN）作为一种创新的替代方案，以其准确性和可解释性优于MLP而受到关注。尽管如此，关于KAN和MLP的选择仍存在争议。

新加坡国立大学的研究者在控制参数或浮点运算（FLOP）的条件下，对KAN和MLP在不同领域的任务进行了全面比较。结果表明，KAN仅在符号公式表示任务中优于MLP，而在其他任务中通常不如MLP。KAN的优势源于其使用的B样条激活函数。当MLP使用B样条激活函数替代原有激活函数时，其性能可达到甚至超过KAN。然而，B样条无法进一步提高MLP在计算机视觉等其他任务上的性能。

KAN和MLP的主要区别在于激活函数和线性与非线性运算的顺序。KAN使用具有可学习参数的样条函数作为激活函数，而MLP通常使用ReLU、GELU等固定激活函数。此外，KAN先进行非线性变换再进行线性变换，与MLP的顺序相反。研究者通过比较KAN和MLP在不同任务上的表现，发现激活函数的差异是导致两个模型在功能上存在差异的主要原因。

在机器学习数据集上，MLP在八个数据集中的六个上表现优于KAN。在计算机视觉数据集中，KAN的性能始终不如具有相同参数数量或FLOP的MLP。在音频和文本任务中，MLP也表现优于KAN。然而，在符号公式表示任务中，KAN在八个数据集中的七个上优于MLP。

研究者还发现，在连续学习任务中，KAN的遗忘问题比MLP更严重。这与最初KAN论文中的比较结果不同，因为本文采用了更标准的类递增持续学习设置。

总的来说，尽管KAN在符号公式表示任务中表现优异，但在其他任务中，MLP仍然是更好的选择。激活函数的差异是导致KAN和MLP在不同任务上表现不同的主要原因。这项研究为KAN和MLP的选择提供了更深入的见解，并为未来的研究和应用提供了有价值的参考。