突破瓶颈，嵌入式AI神经持续学习引擎—Replay4NCL

1,450 0 0

文章摘要

阿联酋大学、纽约大学阿布扎比分校和巴基斯坦国立科技大学的研究人员联合推出了一种名为Replay4NCL的高效内存重放方法，旨在解决嵌入式 AI系统在动态环境中持续学习的难题。该研究成果已被第62届设计自动化大会（DAC）审核通过，并将在2025年6月的旧金山大会上展示。随着AI技术的快速发展，嵌入式AI系统在移动机器人、无人驾驶、无人机等应用场景中扮演着越来越重要的角色。这些系统需要具备持续学习的能力，以适应动态变化的环境，同时避免灾难性遗忘。然而，传统的持续学习方法在嵌入式系统中面临着显著的延迟、能量消耗和内存占用问题。Replay4NCL通过优化记忆重放过程，为嵌入式AI系统提供了一种高效的神经形态持续学习解决方案。

Replay4NCL的核心创新模块包括时序优化、参数调整和动态训练策略。在脉冲神经网络中，时序是一个关键参数，决定了神经元在每个时间步内处理信息的频率。传统的SNN模型通常采用较长的时序，以确保网络能够充分处理输入数据并达到较高的精度。然而，长时序也带来了显著的处理延迟，这对于需要快速响应的嵌入式AI系统来说是不可接受的。Replay4NCL通过实验研究了不同时序设置对网络精度和延迟的影响，发现将时序从传统的100降低到40，虽然会导致精度略有下降，但仍然能够保持在可接受的范围内，同时显著减少了处理时间。此外，Replay4NCL还引入了一种基于减少时序的数据压缩-解压缩机制，进一步减少了潜在数据的内存占用。

时序的减少虽然降低了延迟和内存占用，但也带来了新的挑战。由于时序减少，神经元接收到的脉冲数量减少，这可能导致神经元的膜电位难以达到阈值电位，从而影响网络的性能。为了解决这一难题，Replay4NCL提出了参数调整模块，通过调整神经元的阈值电位和学习率来弥补信息损失。研究人员降低了阈值电位Vthr的值，使得神经元更容易发射脉冲，即使在脉冲数量较少的情况下，也能够保持与原始预训练模型相近的脉冲活动。同时，学习率也被降低，以减缓网络的学习速度。这一调整确保了在训练阶段，网络能够更加谨慎地更新权重，尤其是在脉冲数量较少的情况下，从而提高了网络对旧知识的保持能力和对新知识的学习能力。

Replay4NCL的另一个核心创新是其动态训练策略，可将时序优化、参数调整和潜在重放数据插入策略有机地结合起来，形成了一种高效的训练机制。在预训练阶段，SNN模型首先被训练以学习所有预训练任务。在准备网络进行持续学习训练阶段时，模型会生成LR数据激活，并根据选定的层将网络分割为两部分：冻结层和学习层。冻结层负责将输入脉冲传递到学习层，而学习层则在训练新任务时进行更新。在持续学习训练阶段，网络会动态调整阈值电位和学习率。通过这种方式，网络能够在处理较少脉冲的情况下，仍然保持高效的权重更新和学习能力。

为了测试Replay4NCL的性能，研究人员在Spiking Heidelberg Digits、Class-Incremental Learning上进行了综合评估，来检测其精度、处理延迟和内存占用等关键参数。实验结果显示，Replay4NCL在保持旧知识方面表现出色，其Top-1精度达到了90.43%，相比现有的最先进方法SpikingLR提高了4.21个百分点。同时，在学习新任务时，Replay4NCL方法也展现出了良好的性能，其精度与SpikingLR方法相当。在处理延迟方面，Replay4NCL方法取得了显著的改进。与时序为100的SpikingLR方法相比，Replay4NCL方法通过采用40时序的设置，将处理延迟降低了4.88倍。这一改进使得嵌入式AI系统能够更快地响应输入信号，提高了系统的实时性。在潜在数据内存占用方面，Replay4NCL方法也取得了显著的节省。由于采用了减少时序的数据压缩-解压缩机制，Replay4NCL方法将潜在数据的内存占用减少了20%。这一节省对于资源受限的嵌入式AI系统来说至关重要，因为它可以显著减少系统的存储需求，从而降低硬件成本和功耗。在能量消耗方面，Replay4NCL方法同样表现出色。实验结果表明，与SpikingLR方法相比，Replay4NCL方法将能量消耗降低了36.43%。这一节能效果主要得益于减少的时序设置，因为它减少了脉冲的生成和处理数量，从而降低了系统的能量消耗。

Replay4NCL通过优化时序、引入数据压缩-解压缩机制、调整参数和动态训练策略，显著提高了嵌入式AI系统的持续学习能力，降低了处理延迟、内存占用和能量消耗。这一研究成果为嵌入式AI系统在动态环境中的应用提供了新的解决方案，具有重要的理论和实践意义。