标签:基准测试
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
研究揭示了在心智理论任务上,大型语言模型(LLM)已达到与人类相近的水平,尤其在更高阶的心智推理上,某些模型甚至超越了人类的表现。具体而言,GPT-4在第...
谷歌数学版Gemini破解奥赛难题,堪比人类数学家!
在谷歌I/O大会上, Gemini 1.5 Pro的发布引起了广泛关注。该模型的数学专业版本在多项基准测试中展现出了卓越性能,特别是数学能力,其成绩甚至与人类专家水...
终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
背景介绍:- 大型语言模型的推理能力提升是当前研究的重要方向。问题提出:- 许多研究使用GSM8k、MATH等测试集作为基准,但这些测试集可能受到训练数据集的污...
新测试基准发布,最强开源Llama 3尴尬了
文章介绍了一个名为Arena-Hard的新基准测试,旨在提供更难、更有区分度的测试,以区分不同AI模型的表现。该测试利用竞技场实时人类数据构建,具有高度的区分...
马斯克的首款多模态大模型来了,GPT-4V又被超越了一次
自2023年11月首次亮相以来,马斯克的公司在大模型领域不断取得进步,推出了,这是一个多模态模型,能够理解文本并处理文档、图表、截图和照片中的内容。Grok-...
Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!
文章主要介绍了Anthropic公司发布的新一代AI大模型系列——Claude 3。这个系列包括三个模型,分别是Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们在能...
能在手机上运行,仅仅0.5B大小的小语言模型MobiLlama
本文介绍了MobiLlama模型,这是一个基于LLaMA-7B架构设计的轻量级语言模型,旨在在边缘设备上高效运行,无需将数据发送到远程服务器或云端处理。MobiLlama模...
比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍
Groq模型以其惊人的速度在AI领域引起了广泛关注。这款被称为“世界上速度最快的LLM”的模型,每秒能输出近500个token,远超过ChatGPT-3.5的40个token。在完成简...
1
2