标签:能力评估

字节扣子搭建大模型擂台:匿名PK效果,用户当裁判,跑分时代要结束了

在字节跳动的AI应用开发平台“扣子”上,出现了一种新颖的模型竞技方式——“模型广场”。这个概念类似于国外权威的大模型擂台“Chatbot Arena”,用户可以参与其中,...

全球140+大模型全方位评测结果出炉,智源评测体系发布

智源研究院在2024年5月17日举办了大模型评测发布会,推出了科学、权威、公正、开放的智源评测体系。该评测对国内外140余个大模型进行了全面能力评估,涵盖语...