中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一

AIGC动态6个月前发布 almosthuman2014
1,056 0 0
中国大模型头名易主:全球盲测榜单上,Yi-Large与GPT-4o中文并列第一

 

文章摘要


【关 键 词】 大模型竞技零一万物Yi-Large全球排名客观评测

在最新更新的大模型竞技Chatbot Arena排名中,一个名为“im-also-a-good-gpt2-chatbot”的神秘模型引起了广泛关注。该模型实际上是由OpenAI揭开的GPT-4o测试版本,其排名超过了一系列国际大厂的当家模型。

与此同时,中国大模型公司零一万物提交的Yi-Large”千亿参数闭源大模型,在LMSYS盲测竞技场中表现出色。

Yi-Large模型在全球模型总榜中排名第7,成为中国大模型中排名第一的模型,超过了Llama-3-70B、Claude 3 Sonnet等模型,并在中文分榜上与GPT-4o并列世界第一。

LMSYS Chatbot Arena的评测过程采用了开放、科学的方法,通过真实用户的盲测投票和Elo评分系统,减少了偏见和刷榜的可能性,确保了评测的客观性和权威性。

Yi-Large模型在编程能力、长提问和艰难提示词等分类别排行榜上均表现出色,位列全球第二。值得一提的是,Yi-Large模型的参数量仅为千亿级别,却能与国际上万亿级别超大参数规模的旗舰模型相媲美。

此次Chatbot Arena共有44款模型参赛,排名前6的模型分别来自OpenAI、Google、Anthropic等海外巨头。零一万物位列全球第四机构,其Yi-Large模型紧随GPT-4、Gemini 1.5 Pro等旗舰模型之后,显示出中国大模型在国际竞争中的强劲势头。此外,阿里巴巴的Qwen-Max和智谱AI的GLM-4也在总榜中取得了不错的成绩。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 3586字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...