标签:Transformer
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的
Meta的AI科学家Thomas Scialom在Latent Space播客节目中分享了Llama 3.1的研发思路和Llama 4的更新方向。Llama 3.1的参数规模选择考虑了多种因素,如scaling ...
首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了
Llama 3.1,一个多语言大型语言模型(LLM)集合,最近在Reddit上泄露,引起了广泛关注。这个集合包含8B、70B和405B三种不同参数规模的模型,且在多项基准测试...
6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码
由微软和MIT等机构的研究人员提出的新训练范式,通过因果模型构建数据集,成功地提升了模型的推理能力。该研究团队训练了一个仅有67M参数的微型Transformer模...
谷歌推出通用视频模型:能精准分类、定位、检索等
谷歌的研究人员开发了一种名为VideoPrism的通用视频模型,该模型在视频领域的多种任务上展现出了卓越的性能。为了验证VideoPrism的性能,研究人员在33个视频...
谷歌推出全新模型,将Transformer与NAR相结合
在AIGC领域,Transformer架构的引入极大地推动了大模型的技术创新,催生了ChatGPT、Coplit、讯飞星火、文心一言等生成式AI产品。尽管Transformer在自然语言理...
Meta开源多token预测,提升大模型推理效率
AIGC开放社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,专注于AIGC领域的市场研究和开发者生态。传统的大模型预训练...
哈佛辍学生搞AI芯片公司:融资1.2亿美元,面向一个模型
AI芯片初创公司Etched近期宣布已筹集1.2亿美元资金,挑战Nvidia在AI芯片设计领域的领导地位。Etched正在研发一款名为Sohu的新芯片,专注于处理AI中的Transfor...
麻省理工提出“跨层注意力”,极大优化Transformer缓存
在人工智能生成内容(AIGC)领域,Transformer架构因其在大语言模型(LLM)中的关键作用而备受关注。然而,随着模型参数的指数级增长,传统的Transformer架构...
谷歌推出基于Transformer的创新技术——无限注意力
随着生成式AI产品如ChatGPT和Sora等的流行,Transformer架构已成为处理文本、图像、视频和音频等数据的大型语言模型(LLM)的基础。谷歌提出了一种名为Infini...
AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降
OpenAI研究科学家Hyung Won Chung在斯坦福大学的演讲中探讨了AI研究的主要推动力,并通过Transformer的发展来阐释这一推动力。Chung认为,AI研究的核心推动力...