标签:数学推理

国产模型炸裂登场,国外赞不绝口!OpenAI-o1级性能,免费使用

国产大模型平台DeepSeek最近发布了其全新推理模型DeepSeek-R1-Lite预览版,该模型以深度思维链推理为特色,在数学、代码和复杂推理任务上表现出色,能够生成...

连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路

近期,AI社区对The Information的一篇文章反响强烈,该文章指出OpenAI下一代旗舰模型的质量提升可能不及前两款,原因是高质量文本和其他数据供应减少,原本的...

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

上海AI Lab团队发布了LLaMA版o1项目,旨在复刻OpenAI的o1推理大模型。该项目采用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式。...

苹果一篇论文把大模型圈子得罪了!“踩着”OpenAI、Meta大模型上位,Gary Marcus:早就说大模型不会推理!

苹果公司的六位AI研究人员发表了一篇论文,对当前领先的语言模型(LLM)进行了测试,以评估它们处理数学推理任务的能力。研究发现,即使是问题措辞的微小变化...

o1带火的CoT到底行不行?新论文引发了论战

近期,德克萨斯大学奥斯汀分校、约翰·霍普金斯大学和普林斯顿大学的研究人员提出了一个关键问题:在大型语言模型(LLM)中,是否应该使用思维链(Chain-of-Th...

Meta开源用于数学等复杂推理AI Agent—HUSKY

由Meta、华盛顿大学和阿伦AI实验室联合开发的HUSKY,是一款专注于数学和表格等复杂推理任务的AI Agent。HUSKY的创新之处在于其统一的行动空间设计,允许AI在...

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

近日,AI领域发生了一起令人惊讶的事件,一些大型AI模型如GPT-4o和Gemini在比较9.11和9.9大小的问题上出现了错误。这一现象引发了对AI模型提示词优化和理解能...

4人团队斩获首届AI奥数竞赛百万大奖!AI破解29题陶哲轩惊呆,CMU华人博士荣登第二

首届AI奥数竞赛结果揭晓,Numina模型以29/50的正确率荣获第一名,远超其他参赛模型。该竞赛由Kaggle社区举办,旨在提升AI模型的数学推理能力,奖金池高达1000...

国产开源之光 Qwen2-72B 大战海外霸主 Llama3-70B |AI 鲜测

Qwen2模型在高考第一天(6月7日)正式开源,迅速引起了广泛关注。其中参数最大的Qwen2-72B在多语言能力、代码生成、数学推理、长文本处理等方面表现出色,同...

27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神

SEAL排行榜是一个全新的大模型评估平台,由Scale AI团队推出,得到AI领域知名人士的认可。该排行榜的特色在于使用私有数据集,确保评估公正性;定期更新数据...
1 2