当大模型开始「考上」一本

AIGC动态6个月前发布 geekpark
1,090 0 0
当大模型开始「考上」一本

 

文章摘要


【关 键 词】 高考评估人工智能文科优势数理短板技术优化

2024年高考期间,九个大型人工智能模型参加了河南使用的难度最高的新课标Ⅰ卷考试,以评估它们的智力水平。这些模型包括GPT-4o、豆包、文心4.0等,涵盖了国内外知名公司和新兴企业的产品。测试结果显示,大模型在文科特别是英语科目中表现优异,平均分高达132分,接近满分。然而,在数理学科方面,它们的表现明显不足,大多数模型在数学和理综科目中得分较低。

具体来看,GPT-4o在文科中得分最高,达到562分,超过河南一本线41分。豆包和文心4.0的文科成绩也超过了一本线。尽管在理科方面,表现最好的文心4.0仍低于一本线30多分,但大模型的理科成绩足以进入二本院校。

在语文科目中,大模型的客观题表现良好,但在作文方面存在不足。尽管部分作文得分较高,但普遍缺乏深度和创意,套路化明显。英语科目中,大模型在客观题上几乎满分,但在应用文写作和读后续写部分存在一些问题,如字数不足、内容空泛等。

数学成为衡量大模型能力的重要分水岭。尽管大模型在处理自然语言方面表现出色,但在数学等逻辑严密的科目上,它们的能力仍有待提高。这表明大模型在理解和应用复杂数学概念方面存在局限,需要进一步优化和改进。

综上所述,大模型在2024年高考中的表现显示出它们在文科特别是英语科目中具有较高水平,但在数理学科上仍有较大差距。这为今后大模型的发展方向和优化提供了有益的参考。同时,这也提醒我们,在人工智能技术迅速发展的今天,仍需关注和加强人类在逻辑思维和创新能力方面的培养。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 6345字 | 26分钟 ]
【原文作者】 极客公园
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...