标签:数学推理

o1带火的CoT到底行不行?新论文引发了论战

近期,德克萨斯大学奥斯汀分校、约翰·霍普金斯大学和普林斯顿大学的研究人员提出了一个关键问题:在大型语言模型(LLM)中,是否应该使用思维链(Chain-of-Th...

Meta开源用于数学等复杂推理AI Agent—HUSKY

由Meta、华盛顿大学和阿伦AI实验室联合开发的HUSKY,是一款专注于数学和表格等复杂推理任务的AI Agent。HUSKY的创新之处在于其统一的行动空间设计,允许AI在...

Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

近日,AI领域发生了一起令人惊讶的事件,一些大型AI模型如GPT-4o和Gemini在比较9.11和9.9大小的问题上出现了错误。这一现象引发了对AI模型提示词优化和理解能...

4人团队斩获首届AI奥数竞赛百万大奖!AI破解29题陶哲轩惊呆,CMU华人博士荣登第二

首届AI奥数竞赛结果揭晓,Numina模型以29/50的正确率荣获第一名,远超其他参赛模型。该竞赛由Kaggle社区举办,旨在提升AI模型的数学推理能力,奖金池高达1000...

国产开源之光 Qwen2-72B 大战海外霸主 Llama3-70B |AI 鲜测

Qwen2模型在高考第一天(6月7日)正式开源,迅速引起了广泛关注。其中参数最大的Qwen2-72B在多语言能力、代码生成、数学推理、长文本处理等方面表现出色,同...

27岁华裔天才少年对打UC伯克利,首发SEAL大模型排行榜!Claude 3 Opus数学封神

SEAL排行榜是一个全新的大模型评估平台,由Scale AI团队推出,得到AI领域知名人士的认可。该排行榜的特色在于使用私有数据集,确保评估公正性;定期更新数据...

AlphaGo核心算法增强,7B模型数学能力直逼GPT-4,阿里大模型新研究火了

阿里巴巴的研究人员最近提出了一种名为AlphaMath的方法,该方法利用蒙特卡洛树搜索(MCTS)增强大语言模型(LLM)的性能,特别是在数学推理任务上。这项研究...

AI | MO数学竞赛启动,陶哲轩力荐!50题对3道,百万大奖抱回家

新智元最近报道了一项针对人工智能模型的数学竞赛,这场比赛吸引了广泛关注,因为它提供了高达104.8万美元的奖金。参赛的AI模型需要在50个数学题中至少解出3...

LLaMA-2-7B数学能力上限已达97.7%?Xwin-Math利用合成数据解锁潜力

这篇文章介绍了一项由西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作,名为Xwin,旨在探索通用预训练下规模为7B的语言...

仅需格式转换提升9%数学推理能力,上交开源新对齐方法ReAlign

上海交通大学生成式人工智能实验室(GAIR Lab)开发了一种新的方法ReAlign,旨在提升大型语言模型的对齐能力,特别是在数学推理、事实性回答和可读性方面。Re...