标签:模型评估

Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点

张天宇在其研究中提出了一种名为视觉字幕恢复(Visual Caption Restoration, VCR)的新任务,旨在探究视觉语言模型(Vision-Language Models, VLM)的推理能...

LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V

LeCun和谢赛宁团队近日推出了Cambrian-1,一种采用以视觉为中心方法设计的多模态大语言模型(MLLM),并全面开源了模型权重、代码、数据集以及详细的指令微调...

ACM最新论文戳破大公司「开源」谎言,GenAI时代到底如何定义「开源模型」

在AI时代,开源的定义变得模糊不清。传统软件中的开源概念,如Linux和Windows的对比,已经不再适用于AI模型。Open Source Initiative(OSI)指出,传统的开源...

GPT-4系列模型,在文档理解中的多维度评测

Snowflake的研究人员对OpenAI的GPT-4系列模型进行了深入研究,评估了其在文本生成、图像理解、文档摘要等方面的能力。通过在DocVQA、InfographicsVQA、SlideV...

刺激!扣子模型广场上线,实时 PK 高下立见

扣子模型广场的推出为用户在选择国内主流大语言模型时提供了一种全新的评估方式。该平台借鉴了国际开放研究组织LMSYS Org的大模型竞技场Chatbot Arena的匿名...

27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神

SEAL排行榜是一个全新的大模型评估平台,由Scale AI团队推出,得到AI领域知名人士的认可。该排行榜的特色在于使用私有数据集,确保评估公正性;定期更新数据...

终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名

背景介绍:- 大型语言模型的推理能力提升是当前研究的重要方向。问题提出:- 许多研究使用GSM8k、MATH等测试集作为基准,但这些测试集可能受到训练数据集的污...

Claude 3说服力堪比人类!Anthropic最新研究揭秘LLM惊人能力

Anthropic最近发布的研究成果表明,他们开发的人工智能模型Claude 3 Opus在说服力方面与人类相当。这一发现对于评估语言模型的说服力具有重要意义,因为说服...

AI | MO数学竞赛启动,陶哲轩力荐!50题对3道,百万大奖抱回家

新智元最近报道了一项针对人工智能模型的数学竞赛,这场比赛吸引了广泛关注,因为它提供了高达104.8万美元的奖金。参赛的AI模型需要在50个数学题中至少解出3...

讨论下一个token预测时,我们可能正在走进陷阱

机器之心报道,编辑赵阳,最近围绕下一个token预测的讨论日益激烈。然而,许多人认为,下一个token预测的目标无法真正模拟人类思维。人类在执行计划之前会在...