标签:逻辑推理

一手实测文心X1/4.5:又强又全面!歪果网友疯求英文版

百度在文心一言两周年之际,推出了两款新模型——文心大模型4.5和文心大模型X1,并宣布免费向用户开放。这一消息迅速在海外社交媒体上引发热议,尤其是关于是否...

实测Claude 3.7:3200行代码一口气输出,物理规律手拿把掐,弱智吧已失守

Claude 3.7 Sonnet的最新发布引发广泛关注,其核心突破集中在编程能力与复杂任务处理效率的显著提升。测试显示,该模型仅需单个样本即可生成超过3200行代码,...

LLM推理暴涨,数学逻辑开挂! DeepSeek等华人团队新大招,Ai2大牛狂点赞

DeepSeek团队提出的CODEI/O方法通过代码输入/输出预测任务,显著提升了大型语言模型在多种推理任务中的表现。该方法将原始代码文件转换为可执行函数,并构建...

DeepSeek登顶中美App Store,精妙的深度思考+联网模式让用户“沦陷”了

自2025年1月20日发布以来,DeepSeek R1在全球AI领域引起了巨大轰动。这款AI产品不仅在社交媒体上引发广泛讨论,甚至被硅谷程序员视为学习对象,其影响力可见...

国产大模型首发中文逻辑推理,「天工大模型4.0」o1版来了

近期,昆仑万维推出了国内首款具备中文逻辑推理能力的大模型——天工大模型4.0 o1版(Skywork o1),标志着公司在大模型及相关应用领域的又一重大进展。Skywork...

陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

Epoch AI联合六十余位全球数学家推出了全新的数学基准FrontierMath,旨在评估AI系统的高级推理能力。该基准包含数百个原创且极具挑战性的数学问题,覆盖从奥...

OpenAI开启推理算力新Scaling Law,AI PC和CPU的机会来了

OpenAI的o1模型通过强化学习和增加思考时间显著提升了逻辑推理能力,尤其在北京大学的评测中,o1-mini模型的表现超越了o1-preview。o1-mini专注于加强推理能...

万字探讨:国内AI应用创业陷入恶性循环,问题在哪里,出路是什么?

自ChatGPT引领的大型语言模型(LLM)发展以来,其对人类社会的深远影响已成为共识。在行业巨头和资本的推动下,LLM及其应用如聊天机器人、多代理系统、多模态...

张俊林:OpenAI o1的价值意义及强化学习的Scaling Law

张俊林在其文章中对OpenAI的o1模型进行了深入分析,认为这是自GPT-4以来大模型领域的一个重要进步。o1模型在逻辑推理能力上的提升,使其在发展大模型的不同方...

菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽LLM

剑桥大学研究主任、菲尔兹奖得主Timothy Gowers最近对大型语言模型(LLM)如GPT-4o进行了一项测试,以解决经典的“狼-山羊-卷心菜”过河问题。测试结果显示,这...
1 2