标签:模型评估
第一个被人类骗钱的AI傻了,近5万美元不翼而飞!Scaling Law还能带我们到AGI吗?
全球首个AI智能体Freysa被人类骗走近5万美元的事件引起了广泛关注。Freysa被设计为在任何情况下都不能转账或批准资金转移,但通过精心设计的prompt工程,一名...
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
新智元报道了多模态大型语言模型(MLLMs)在多学科多模态理解和推理(MMMU)基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提升,但对其是否真正理...
刚刚,OpenAI又双叒叕鸽了!没等来“草莓”发布,只敷衍发了评测集,网友:拿这来抢谷歌发布会风头?
OpenAI和谷歌在人工智能领域的竞争并未如外界预期那样激烈。OpenAI发布了一系列指标,作为其安全开发和部署前沿模型的方法的一部分,这些指标用于评估和预测...
Bengio团队提出多模态新基准,直指Claude 3.5和GPT-4o弱点
张天宇在其研究中提出了一种名为视觉字幕恢复(Visual Caption Restoration, VCR)的新任务,旨在探究视觉语言模型(Vision-Language Models, VLM)的推理能...
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
LeCun和谢赛宁团队近日推出了Cambrian-1,一种采用以视觉为中心方法设计的多模态大语言模型(MLLM),并全面开源了模型权重、代码、数据集以及详细的指令微调...
ACM最新论文戳破大公司「开源」谎言,GenAI时代到底如何定义「开源模型」
在AI时代,开源的定义变得模糊不清。传统软件中的开源概念,如Linux和Windows的对比,已经不再适用于AI模型。Open Source Initiative(OSI)指出,传统的开源...
GPT-4系列模型,在文档理解中的多维度评测
Snowflake的研究人员对OpenAI的GPT-4系列模型进行了深入研究,评估了其在文本生成、图像理解、文档摘要等方面的能力。通过在DocVQA、InfographicsVQA、SlideV...
刺激!扣子模型广场上线,实时 PK 高下立见
扣子模型广场的推出为用户在选择国内主流大语言模型时提供了一种全新的评估方式。该平台借鉴了国际开放研究组织LMSYS Org的大模型竞技场Chatbot Arena的匿名...
27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神
SEAL排行榜是一个全新的大模型评估平台,由Scale AI团队推出,得到AI领域知名人士的认可。该排行榜的特色在于使用私有数据集,确保评估公正性;定期更新数据...
终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
背景介绍:- 大型语言模型的推理能力提升是当前研究的重要方向。问题提出:- 许多研究使用GSM8k、MATH等测试集作为基准,但这些测试集可能受到训练数据集的污...
1
2