模型局限 | 学习AIGC

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

Scale AI、Center for AI Safety与MIT研究者联合推出的ENIGMAEVAL基准，通过1184道源自解谜寻宝竞赛的复杂题目，系统评估大语言模型的多模态推理能力。该基准...

AIGC动态

7个月前

在最近的一项测试中，多个主流大型AI模型在回答“9.11和9.9哪个大”这一简单问题时，意外地给出了错误答案，认为9.11大于9.9。这一现象引起了广泛关注和讨论。R...

AIGC动态

1年前 (2024)

剑桥大学研究主任、菲尔兹奖得主Timothy Gowers最近对大型语言模型（LLM）如GPT-4o进行了一项测试，以解决经典的“狼-山羊-卷心菜”过河问题。测试结果显示，这...

AIGC动态

1年前 (2024)

在彭博社对OpenAI的Sora进行的测试中，Sora在将文本提示转换为视频方面表现出了一些技术局限性。尽管Sora能够生成视频，但在处理复杂的场景时，如物体的物理...

AIGC动态

2年前 (2024)