标签:基准测试
这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练
AI写作初创公司HyperWrite开发的新模型Reflection 70B在开源大模型社区引起了广泛关注。该模型基于Meta Llama 3.1 70B Instruct构建,采用原始Llama chat格式...
AWS Graviton 4,水平如何?
Graviton4相较于前代Graviton3在性能上实现了显著提升,其R8g实例据称比R7g实例性能高出30%。Graviton4配备了96个基于Armv9.0 ISA的Neoverse-V2内核,每个内...
GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界
根据新智元的报道,亚利桑那大学、微软、霍普金斯大学等机构最近联合发布了一篇论文,从实证角度对LLM作为世界模拟器的能力进行了否定。这项研究已经被ACL 20...
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
研究揭示了在心智理论任务上,大型语言模型(LLM)已达到与人类相近的水平,尤其在更高阶的心智推理上,某些模型甚至超越了人类的表现。具体而言,GPT-4在第...
谷歌数学版Gemini破解奥赛难题,堪比人类数学家!
在谷歌I/O大会上, Gemini 1.5 Pro的发布引起了广泛关注。该模型的数学专业版本在多项基准测试中展现出了卓越性能,特别是数学能力,其成绩甚至与人类专家水...
终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
背景介绍:- 大型语言模型的推理能力提升是当前研究的重要方向。问题提出:- 许多研究使用GSM8k、MATH等测试集作为基准,但这些测试集可能受到训练数据集的污...
新测试基准发布,最强开源Llama 3尴尬了
文章介绍了一个名为Arena-Hard的新基准测试,旨在提供更难、更有区分度的测试,以区分不同AI模型的表现。该测试利用竞技场实时人类数据构建,具有高度的区分...
马斯克的首款多模态大模型来了,GPT-4V又被超越了一次
自2023年11月首次亮相以来,马斯克的公司在大模型领域不断取得进步,推出了,这是一个多模态模型,能够理解文本并处理文档、图表、截图和照片中的内容。Grok-...
Claude 3终于来了,最强大模型易主?不,网友亲测了才算数!
文章主要介绍了Anthropic公司发布的新一代AI大模型系列——Claude 3。这个系列包括三个模型,分别是Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,它们在能...
能在手机上运行,仅仅0.5B大小的小语言模型MobiLlama
本文介绍了MobiLlama模型,这是一个基于LLaMA-7B架构设计的轻量级语言模型,旨在在边缘设备上高效运行,无需将数据发送到远程服务器或云端处理。MobiLlama模...