标签:性能超越

非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造

MIT初创团队Liquid AI推出了一种新型架构模型LFM(Liquid Foundation Model),在性能上超越了同等规模的Transformer模型如Llama3.2。LFM模型包含1.3B和3B两...

英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

英伟达公司发布了一款名为Nemotron-4 340B的开源模型,该模型在人工智能领域具有潜在的革命性意义。Nemotron-4 340B能够生成合成数据,可能将改变训练大型语...

开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危

在人工智能领域,开源大模型Qwen2的亮相引起了广泛关注。这款由阿里巴巴推出的模型在性能上全面超越了同为开源标杆的Llama 3,仅在发布两小时后便登顶Hugging...

阿里云重磅发布开源模型Qwen2,性能超Llama3-70及国内众多闭源模型

阿里云更新了其技术博客,并发布了一款新的开源模型Qwen2-72B,这一模型在性能上超越了美国的Llama3-70B以及众多中国闭源大模型,如文心4.0、豆包pro和混元pr...

斯坦福AI团队“套壳”清华系开源大模型被实锤!被揭穿后全网删库跑路

斯坦福团队在Medium发布的文章中宣称,他们训练出了一个小型多模态模型Llama 3-V,其性能超越了GPT-4V、Gemini Ultra和Claude Opus等模型,且尺寸只有GPT4-V...

超越GPT-4,斯坦福团队手机可跑的大模型火了,一夜下载量超2k

斯坦福大学研究人员近日推出的 Octopus v2 模型在端侧 AI 应用领域引起了广泛关注。这个拥有 20 亿参数的模型不仅在智能手机、汽车、个人电脑等端侧设备上运...

3140亿参数,可商用!马斯克开源大模型Grok-1

3月18日,马斯克兑现了开源承诺,将旗下公司x.ai的大模型Grok-1正式开源,并支持商业化用途。在这段文本中,重点词语和句子已经使用HTML元素标记出来,使其更...

用扩散模型生成网络参数,LeCun点赞尤洋团队新研究

摘要:新加坡国立大学、加州大学伯克利分校和Meta AI Research的研究团队发现了扩散模型的一个新应用方向:生成神经网络的模型参数。这一发现意味着可以使用...

全球最强开源大模型一夜易主!谷歌Gemma 7B碾压Llama 2 13B,今夜重燃开源之战

摘要总结:谷歌发布了全球最强的开源大模型Gemma,性能超越了Llama 2 13B,标志着谷歌和OpenAI在AI领域的竞争达到了新的高度。Gemma模型有两种规模:2B和7B,...

清华系2B模型杀出,性能吊打LLaMA-13B,170万tokens仅需1块钱!

文章主要介绍了面壁智能与清华大学自然语言处理实验室共同开源的端侧语言大模型MiniCPM系列。MiniCPM-2B模型仅有24亿非词嵌入参数量,但在综合榜单上表现出色...