原作者带队，LSTM卷土重来之Vision-LSTM出世

AIGC动态1年前 (2024)发布 almosthuman2014

2,762 0 0

文章摘要

近期，由 LSTM之父Sepp Hochreiter领衔的研究团队推出了一种新的计算机视觉骨干网络——Vision-LSTM（ViL）。该网络基于扩展长短期记忆（xLSTM）模型，实现了在视觉领域的突破。

ViL网络的核心是交替的mLSTM块，这些块可以完全并行化，处理图像补丁token序列的效率极高。在ImageNet-1K的实验中，ViL模型在参数数量相当的前提下，表现优于使用序列建模骨干的模型。尤其是在高分辨率图像的任务中，如医学成像、分割或物理模拟，ViL因线性复杂度而具有显著优势。

研究指出，ViL不仅在小型模型上展现出良好的结果，而且在大型模型上也与经过多次优化周期的ViT表现相当。此外，通过特定的微调设置和分类设计，ViL的性能可以进一步提升。

在模型设计方面，研究者尝试了多种mLSTM块的遍历方式，最终选定了交替双向块作为核心设计。此外，针对ViL的自回归特性，研究团队也探索了不同的分类设计，提出了稳健且具有通用性的分类头输入方法。

值得注意的是，这项工作是首次将xLSTM应用于计算机视觉，尽管在所有情况下并未超过ViT多年的超参数调整，但ViL的初步表现已经显示出其巨大的潜力。研究团队也指出，进一步改进预训练方案，探索更优的超参数设置，或从Transformer中迁移技术，都是ViL未来的研究方向。

原文和模型

【原文链接】 阅读原文 [ 3112字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★★

智谱AI

智谱AI是一家国内的AI大模型...

# AIGC动态 # 图像生成 # 大模型 # ViL网络 # xLSTM # 性能突破 # 计算机视觉 # 长短期记忆

文章版权归作者所有，未经允许请勿转载。

李飞飞：World Labs这样实现「空间智能」

机器之心

1,593

专访上海大学方昱春教授：数据驱动的手语识别研究，如何破解数据之困？｜GAIR live

AI科技评论

3,199

让「GPT-4V」跑在手机上，这家中国大模型公司做到了

AI科技评论

2,750

SIGGRAPH Asia 2024：传统与创新并存，3D 生成与具身智能热度上升

AI科技评论

2,331

Elon Musk用20万个GPU打造Grok 3，目标是100万GPU

admin

1,328

著名 AI 学者、天工智能首席科学家颜水成离开昆仑万维，去年 9 月入职

AI前线

2,056

暂无评论

暂无评论...

原作者带队，LSTM卷土重来之Vision-LSTM出世

文章摘要

原文和模型

奥特曼百万年薪挖角谷歌TPU人才，欲砸7万亿实现「芯片自由」？OpenAI自研芯片最新进展曝光

开源超闭源！通义千问Qwen2发布即爆火，网友：GPT-4o危

相关文章

暂无评论

热门网址

热门文章

原作者带队，LSTM卷土重来之Vision-LSTM出世

文章摘要

原文和模型

奥特曼百万年薪挖角谷歌TPU人才，欲砸7万亿实现「芯片自由」？OpenAI自研芯片最新进展曝光

开源超闭源！通义千问Qwen2发布即爆火，网友：GPT-4o危

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章