标签:基准测试

GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界

根据新智元的报道,亚利桑那大学、微软、霍普金斯大学等机构最近联合发布了一篇论文,从实证角度对LLM作为世界模拟器的能力进行了否定。这项研究已经被ACL 20...

谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了

研究揭示了在心智理论任务上,大型语言模型(LLM)已达到与人类相近的水平,尤其在更高阶的心智推理上,某些模型甚至超越了人类的表现。具体而言,GPT-4在第...

谷歌数学版Gemini破解奥赛难题,堪比人类数学家!

在谷歌I/O大会上, Gemini 1.5 Pro的发布引起了广泛关注。该模型的数学专业版本在多项基准测试中展现出了卓越性能,特别是数学能力,其成绩甚至与人类专家水...

终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

背景介绍:- 大型语言模型的推理能力提升是当前研究的重要方向。问题提出:- 许多研究使用GSM8k、MATH等测试集作为基准,但这些测试集可能受到训练数据集的污...

新测试基准发布,最强开源Llama 3尴尬了

文章介绍了一个名为Arena-Hard的新基准测试,旨在提供更难、更有区分度的测试,以区分不同AI模型的表现。该测试利用竞技场实时人类数据构建,具有高度的区分...

马斯克的首款多模态大模型来了,GPT-4V又被超越了一次

自2023年11月首次亮相以来,马斯克的公司在大模型领域不断取得进步,推出了,这是一个多模态模型,能够理解文本并处理文档、图表、截图和照片中的内容。Grok-...

Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!

文章主要介绍了Anthropic公司发布的新一代AI大模型系列——Claude 3。这个系列包括三个模型,分别是Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们在能...

能在手机上运行,仅仅0.5B大小的小语言模型MobiLlama

本文介绍了MobiLlama模型,这是一个基于LLaMA-7B架构设计的轻量级语言模型,旨在在边缘设备上高效运行,无需将数据发送到远程服务器或云端处理。MobiLlama模...

比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍

Groq模型以其惊人的速度在AI领域引起了广泛关注。这款被称为“世界上速度最快的LLM”的模型,每秒能输出近500个token,远超过ChatGPT-3.5的40个token。在完成简...