混合架构 | 学习AIGC

MiniMax 技术闭门会分享：长上下文是 Agent 的 Game Changer

MiniMax在7月10日举办的M1技术研讨会汇集了全球顶尖的研究者和业界嘉宾，深入探讨了模型架构创新、RL训练、长上下文应用等前沿话题。RL能否赋予模型新能力？...

AI-Agent

1个月前

近年来，Transformer架构在自然语言处理领域取得了显著成就，但其计算复杂度和内存占用问题逐渐成为瓶颈。与此同时，Mamba作为一种新兴的状态空间模型（SSM）...

AIGC动态

5个月前

2月27日，腾讯混元自研快思考模型Turbo S正式发布，首字时延降低44%，吐字速度提升一倍，实现“秒回”级响应。该模型通过Hybrid-Mamba-Transformer混合架构创新...

AIGC动态

6个月前

在当前的计算机视觉领域，Vision Transformer（ViT）与传统的卷积神经网络（CNN）之争正日益激烈。近期，图灵奖得主、Meta首席科学家Yann LeCun对这场争论发...

AIGC动态

1年前 (2024)

文章介绍了字节跳动提出的新基础模型ViTamin，专为视觉语言时代设计。ViTamin在ImageNet零样本准确率上比ViT提高了2.0%，在多个基准任务上表现出色。ViTamin-...

AIGC动态

1年前 (2024)