标签:AI测试

Claude自动玩崩铁清日常,NUS新论文完整测评AI电脑操控:GUI智能体的黎明

新加坡国立大学的研究团队对AI系统Claude进行了全面测试,发现其在20多个场景下展现出强大的电脑操控能力。在游戏领域,Claude能够自动完成《崩坏:星穹铁道...

国产AI大战高考物理,第1题全对,第2题开始放飞

在端午节期间,一些地区的高考已结束,而考生们仍在挑战各种科目。本文通过让大型AI模型尝试解答一份辽宁物理试卷的选择题,以此来观察它们的表现。这些AI模...

大模型的高考数学成绩单:及格已经非常好了

在一年一度的高考落幕之际,一款名为“机器之心”的人工智能媒体进行了一场特别的实验:让国内六家顶尖的AI大模型公司产品参加高考数学考试(新课标Ⅰ卷),以此...

Gemini一眼识破Sora视频是AI生成?百万token上下文能力碾压GPT-4

新智元报道:谷歌的Gemini 1.5模型在AI圈大佬们的极限测试中展现出了强大的实力。这些测试包括分析视频内容、处理长视频和音频、翻译稀有语言、理解长论文和...