标签:创意评测

高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

AI模型在复杂基准测试中表现出色,却在简单问题上频频出错,这种反差促使创意评测的兴起。例如,高中生Adi Singh开发的MC-Bench利用Minecraft的“竞技场”模式...