标签:逻辑推理

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

剑桥大学研究主任、菲尔兹奖得主Timothy Gowers最近对大型语言模型(LLM)如GPT-4o进行了一项测试,以解决经典的“狼-山羊-卷心菜”过河问题。测试结果显示,这...

两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

在针对当前最先进的大型语言模型(LLM)进行的一项研究中,研究人员发现了一个令人意外的结果:即使是顶尖的模型,在处理简单的逻辑推理问题时也表现得相当糟...

没想到吧,中文互联网上最好的大模型语料库是:弱智吧

在互联网时代,选择合适的中文教材对于训练大型语言模型至关重要。近期,一个研究团队在寻找高质量的中文指令微调数据集时,意外发现百度贴吧中的“弱智吧”竟...

Gemini修bug神了!录网页视频把代码库甩给它就行,网友坐不住了:想要访问权限

这篇文章介绍了一位网友在测试谷歌Gemini 1.5 Pro时的有趣经历。该网友故意在编写网页代码时留下了3个bug,并录制了相关视频。随后将代码库和视频一起输送给G...

GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智

摘要:谷歌DeepMind和斯坦福的研究人员发现,大模型在处理逻辑推理任务时,信息呈现的顺序对模型表现有显著影响。研究表明,当信息按逻辑顺序排列时,模型表...

当前大模型的能力边界

深入探讨了大型语言模型的能力边界及其在理解、逻辑推理、提示词互动和未来发展方向上的挑战。