中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一
文章摘要
【关 键 词】 大模型竞技、零一万物、Yi-Large、全球排名、客观评测
在最新更新的大模型竞技场Chatbot Arena排名中,一个名为“im-also-a-good-gpt2-chatbot”的神秘模型引起了广泛关注。该模型实际上是由OpenAI揭开的GPT-4o测试版本,其排名超过了一系列国际大厂的当家模型。
与此同时,中国大模型公司零一万物提交的“Yi-Large”千亿参数闭源大模型,在LMSYS盲测竞技场中表现出色。
Yi-Large模型在全球模型总榜中排名第7,成为中国大模型中排名第一的模型,超过了Llama-3-70B、Claude 3 Sonnet等模型,并在中文分榜上与GPT-4o并列世界第一。
LMSYS Chatbot Arena的评测过程采用了开放、科学的方法,通过真实用户的盲测投票和Elo评分系统,减少了偏见和刷榜的可能性,确保了评测的客观性和权威性。
Yi-Large模型在编程能力、长提问和艰难提示词等分类别排行榜上均表现出色,位列全球第二。值得一提的是,Yi-Large模型的参数量仅为千亿级别,却能与国际上万亿级别超大参数规模的旗舰模型相媲美。
此次Chatbot Arena共有44款模型参赛,排名前6的模型分别来自OpenAI、Google、Anthropic等海外巨头。零一万物位列全球第四机构,其Yi-Large模型紧随GPT-4、Gemini 1.5 Pro等旗舰模型之后,显示出中国大模型在国际竞争中的强劲势头。此外,阿里巴巴的Qwen-Max和智谱AI的GLM-4也在总榜中取得了不错的成绩。
原文和模型
【原文链接】 阅读原文 [ 3586字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...