标签:逻辑推理
陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年
Epoch AI联合六十余位全球数学家推出了全新的数学基准FrontierMath,旨在评估AI系统的高级推理能力。该基准包含数百个原创且极具挑战性的数学问题,覆盖从奥...
OpenAI开启推理算力新Scaling Law,AI PC和CPU的机会来了
OpenAI的o1模型通过强化学习和增加思考时间显著提升了逻辑推理能力,尤其在北京大学的评测中,o1-mini模型的表现超越了o1-preview。o1-mini专注于加强推理能...
万字探讨:国内AI应用创业陷入恶性循环,问题在哪里,出路是什么?
自ChatGPT引领的大型语言模型(LLM)发展以来,其对人类社会的深远影响已成为共识。在行业巨头和资本的推动下,LLM及其应用如聊天机器人、多代理系统、多模态...
张俊林:OpenAI o1的价值意义及强化学习的Scaling Law
张俊林在其文章中对OpenAI的o1模型进行了深入分析,认为这是自GPT-4以来大模型领域的一个重要进步。o1模型在逻辑推理能力上的提升,使其在发展大模型的不同方...
菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM
剑桥大学研究主任、菲尔兹奖得主Timothy Gowers最近对大型语言模型(LLM)如GPT-4o进行了一项测试,以解决经典的“狼-山羊-卷心菜”过河问题。测试结果显示,这...
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
在针对当前最先进的大型语言模型(LLM)进行的一项研究中,研究人员发现了一个令人意外的结果:即使是顶尖的模型,在处理简单的逻辑推理问题时也表现得相当糟...
没想到吧,中文互联网上最好的大模型语料库是:弱智吧
在互联网时代,选择合适的中文教材对于训练大型语言模型至关重要。近期,一个研究团队在寻找高质量的中文指令微调数据集时,意外发现百度贴吧中的“弱智吧”竟...
Gemini修bug神了!录网页视频把代码库甩给它就行,网友坐不住了:想要访问权限
这篇文章介绍了一位网友在测试谷歌Gemini 1.5 Pro时的有趣经历。该网友故意在编写网页代码时留下了3个bug,并录制了相关视频。随后将代码库和视频一起输送给G...
GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智
摘要:谷歌DeepMind和斯坦福的研究人员发现,大模型在处理逻辑推理任务时,信息呈现的顺序对模型表现有显著影响。研究表明,当信息按逻辑顺序排列时,模型表...
当前大模型的能力边界
深入探讨了大型语言模型的能力边界及其在理解、逻辑推理、提示词互动和未来发展方向上的挑战。