中国大模型头名易主：全球盲测榜单上，Yi-Large与GPT-4o中文并列第一

AIGC动态2年前 (2024)发布 almosthuman2014

3,607 0 0

文章摘要

在最新更新的大模型竞技场Chatbot Arena排名中，一个名为“im-also-a-good-gpt2-chatbot”的神秘模型引起了广泛关注。该模型实际上是由OpenAI揭开的GPT-4o测试版本，其排名超过了一系列国际大厂的当家模型。

与此同时，中国大模型公司零一万物提交的“Yi-Large”千亿参数闭源大模型，在LMSYS盲测竞技场中表现出色。

Yi-Large模型在全球模型总榜中排名第7，成为中国大模型中排名第一的模型，超过了Llama-3-70B、Claude 3 Sonnet等模型，并在中文分榜上与GPT-4o并列世界第一。

LMSYS Chatbot Arena的评测过程采用了开放、科学的方法，通过真实用户的盲测投票和Elo评分系统，减少了偏见和刷榜的可能性，确保了评测的客观性和权威性。

Yi-Large模型在编程能力、长提问和艰难提示词等分类别排行榜上均表现出色，位列全球第二。值得一提的是，Yi-Large模型的参数量仅为千亿级别，却能与国际上万亿级别超大参数规模的旗舰模型相媲美。

此次Chatbot Arena共有44款模型参赛，排名前6的模型分别来自OpenAI、Google、Anthropic等海外巨头。零一万物位列全球第四机构，其Yi-Large模型紧随GPT-4、Gemini 1.5 Pro等旗舰模型之后，显示出中国大模型在国际竞争中的强劲势头。此外，阿里巴巴的Qwen-Max和智谱AI的GLM-4也在总榜中取得了不错的成绩。