原作者带队,LSTM卷土重来之Vision-LSTM出世
文章摘要
【关 键 词】 ViL网络、计算机视觉、长短期记忆、xLSTM、性能突破
近期,由 LSTM之父Sepp Hochreiter领衔的研究团队推出了一种新的计算机视觉骨干网络——Vision-LSTM(ViL)。该网络基于扩展长短期记忆(xLSTM)模型,实现了在视觉领域的突破。
ViL网络的核心是交替的mLSTM块,这些块可以完全并行化,处理图像补丁token序列的效率极高。在ImageNet-1K的实验中,ViL模型在参数数量相当的前提下,表现优于使用序列建模骨干的模型。尤其是在高分辨率图像的任务中,如医学成像、分割或物理模拟,ViL因线性复杂度而具有显著优势。
研究指出,ViL不仅在小型模型上展现出良好的结果,而且在大型模型上也与经过多次优化周期的ViT表现相当。此外,通过特定的微调设置和分类设计,ViL的性能可以进一步提升。
在模型设计方面,研究者尝试了多种mLSTM块的遍历方式,最终选定了交替双向块作为核心设计。此外,针对ViL的自回归特性,研究团队也探索了不同的分类设计,提出了稳健且具有通用性的分类头输入方法。
值得注意的是,这项工作是首次将xLSTM应用于计算机视觉,尽管在所有情况下并未超过ViT多年的超参数调整,但ViL的初步表现已经显示出其巨大的潜力。研究团队也指出,进一步改进预训练方案,探索更优的超参数设置,或从Transformer中迁移技术,都是ViL未来的研究方向。
原文和模型
【原文链接】 阅读原文 [ 3112字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...