标签:Transformer

超越Sora!全球首个带背景音乐,文生1080超高清视频模型

Meta公司推出了一款名为Movie Gen的大模型,标志着其正式进入文本生成视频(AIGC)领域。该模型拥有300亿参数,能够以每秒16帧的速度生成16秒长的1080P超高清...

给机器人装上「虫脑」?非Transformer液态神经网络终于来了!MIT CSAIL负责人创业成果

Liquid AI是一家专注于开发新型人工智能模型的初创公司,由MIT计算机科学与人工智能实验室(CSAIL)的前研究人员创立。该公司旨在超越现有的生成式预训练Tran...

o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题

在最新的研究中,斯隆奖得主马腾宇和Google Brain推理团队创建者Denny Zhou联合证明了Transformer模型在引入思维链(Chain of Thought, CoT)后,理论上能够...

GPT-4o不会数r,被外国小哥原地逼疯! 谷歌论文揭秘Transformer「数不到n」

在新智元的报道中,工程师Riley Goodside通过“Strawberry里有几个r”的问题测试了多个大型语言模型(LLM)的能力。他发现,尽管一些模型声称能够解决这一问题...

Andrej Karpathy最新激进观点:Transformer将超越人脑

Andrej Karpathy,前OpenAI成员及特斯拉自动驾驶计算机视觉团队领导者,近期在播客节目No Priors中分享了他对AI未来的激进观点。Karpathy认为,Transformer模...

用最直观的动画,讲解LLM如何存储事实,3Blue1Brown的这个视频又火了

3Blue1Brown的最新视频深入探讨了大型语言模型(LLM)如何存储和处理信息。视频通过动画形式,生动地展示了LLM内部的工作原理,特别是多层感知器(MLP)在其...

微软开源Phi-3.5:支持手机、平板电脑,性能超Llama 3.1

微软公司近期开源了Phi-3.5系列模型,该系列包含三种模型:mini指令微调、专家混合和视觉微调。Phi-3.5系列模型以其较小的参数量却展现出超越其他知名开源模...

对话RWKV作者彭博:单枪匹马挑战Transformer的神秘怪才

彭博,一位16岁考入香港大学物理系的天才少年,经历了对冲基金量化交易和创业制造智能硬件的洗礼后,如今以RWKV模型开发者的身份在AI领域崭露头角。RWKV模型...

Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的

Meta的AI科学家Thomas Scialom在Latent Space播客节目中分享了Llama 3.1的研发思路和Llama 4的更新方向。Llama 3.1的参数规模选择考虑了多种因素,如scaling ...

首个超越GPT4o级开源模型!Llama 3.1泄密:4050亿参数,下载链接、模型卡都有了

Llama 3.1,一个多语言大型语言模型(LLM)集合,最近在Reddit上泄露,引起了广泛关注。这个集合包含8B、70B和405B三种不同参数规模的模型,且在多项基准测试...
1 2 3 4 7