LLM又曝致命缺陷:根本不会看时钟!博士惊呆,准确率不及50%

AIGC动态2天前发布 AIera
134 0 0
LLM又曝致命缺陷:根本不会看时钟!博士惊呆,准确率不及50%

 

文章摘要


【关 键 词】 AI推理认知时间缺陷

最新研究揭示了AI在处理看似简单的任务时存在的显著认知缺陷,尤其是在读取时钟和判断日期方面。尽管AI在复杂任务如论文写作、绘画和考试中表现出色,但在这些基础任务中的表现却令人失望。研究团队通过构建ClockQA和CalendarQA两个测试集,系统评估了多模态语言大模型(MLLM)在时间推理和视觉解析方面的能力。结果显示,AI读取时钟的准确率仅为38.7%,判断日历日期的准确率则只有26.3%。这一发现表明,AI在处理需要精确推理和空间感知的任务时,仍然存在明显的不足。

在ClockQA任务中,Gemini-2.0表现出色,取得了最高的精确匹配分数和最小的小时/分钟误差,但整体表现仍然偏低。相比之下,GPT-o1在CalendarQA任务中表现突出,准确率达到80%,展现出其在日期运算和逻辑推理方面的强大能力。然而,其他模型在这两个任务中的表现均不理想,尤其是在处理复杂日历计算和偏移类推理问题时,准确率大幅下降。这表明,尽管某些模型在特定任务中展现潜力,但AI在处理需要泛化或抽象推理的任务时,仍然面临巨大挑战。

研究还发现,AI在处理闰年或复杂日历计算等少见现象时,表现明显下滑。尽管大语言模型(LLM)在训练中接触过大量关于「闰年」概念的解释,但这并不意味着它们能够完成涉及视觉判断的相关任务所需的推理。这一发现强调了在训练数据中加入更多有针对性的示例的重要性,同时也需要重新思考AI如何处理逻辑推理与空间感知相结合的任务。

论文作者Rohit Saxena指出,AI在读取时钟时需要识别指针重叠、测量角度,并适应各种不同的表盘设计,这可能是其表现不佳的原因。此外,AI在处理日期推理问题时,错误率也很高,尽管算术本应是计算机的基本能力之一。这一缺陷表明,AI处理算术的方式与传统计算机不同,它依赖于训练数据中学到的模式来预测答案,而不是运行数学算法。

这项研究是近年来不断增长的一个研究方向的一部分,聚焦于AI的「理解」方式与人类理解方式之间的差异。AI模型通过识别熟悉的模式来得出答案,当训练数据中有足够的示例时,它们表现优秀,但在需要泛化或进行抽象推理时就会失败。这一发现提醒我们,过度依赖AI的输出可能带来风险,尤其是在涉及感知和精确推理的任务中,仍然需要进行严格测试和设置备用逻辑,甚至需要人类介入。

研究团队强调,尽管AI在复杂任务中表现出色,但在应对更简单的日常任务时仍显吃力。这一发现表明,现在已经到了必须解决这些基础能力缺陷的时候了,否则AI在那些对时间敏感的现实应用中,可能始终难以真正落地。

原文和模型


【原文链接】 阅读原文 [ 2043字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...