标签:数学推理
OpenAI o1是真有实力!港大权威AB测试,国家队奥数题照样拿下
香港大学研究人员对OpenAI的Orion-1(o1)模型进行了严格的AB测试,以评估其数学推理能力。研究者通过比较o1在国际数学奥林匹克(IMO)和中国国家队训练营(C...
微软:两个AI相互纠错,数学再涨5分
加州大学和微软研究院的研究者们提出了一种名为Flow-DPO的新方法,旨在提升大型语言模型(LLM)在数学问题解答中的推理能力。该方法通过在线学习流(Flow)和...
AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案
最近,UCL和Cohere等机构的研究人员发现,在执行推理任务时,大型语言模型(LLM)表现出一种“程序性知识”。这项研究挑战了人们对于LLM仅通过简单检索来推理的...
国产模型炸裂登场,国外赞不绝口!OpenAI-o1级性能,免费使用
国产大模型平台DeepSeek最近发布了其全新推理模型DeepSeek-R1-Lite预览版,该模型以深度思维链推理为特色,在数学、代码和复杂推理任务上表现出色,能够生成...
连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路
近期,AI社区对The Information的一篇文章反响强烈,该文章指出OpenAI下一代旗舰模型的质量提升可能不及前两款,原因是高质量文本和其他数据供应减少,原本的...
Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式
上海AI Lab团队发布了LLaMA版o1项目,旨在复刻OpenAI的o1推理大模型。该项目采用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式。...
苹果一篇论文把大模型圈子得罪了!“踩着”OpenAI、Meta大模型上位,Gary Marcus:早就说大模型不会推理!
苹果公司的六位AI研究人员发表了一篇论文,对当前领先的语言模型(LLM)进行了测试,以评估它们处理数学推理任务的能力。研究发现,即使是问题措辞的微小变化...
o1带火的CoT到底行不行?新论文引发了论战
近期,德克萨斯大学奥斯汀分校、约翰·霍普金斯大学和普林斯顿大学的研究人员提出了一个关键问题:在大型语言模型(LLM)中,是否应该使用思维链(Chain-of-Th...
Meta开源用于数学等复杂推理AI Agent—HUSKY
由Meta、华盛顿大学和阿伦AI实验室联合开发的HUSKY,是一款专注于数学和表格等复杂推理任务的AI Agent。HUSKY的创新之处在于其统一的行动空间设计,允许AI在...
Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测
近日,AI领域发生了一起令人惊讶的事件,一些大型AI模型如GPT-4o和Gemini在比较9.11和9.9大小的问题上出现了错误。这一现象引发了对AI模型提示词优化和理解能...
1
2