Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

AIGC动态4个月前更新 Si-Planet
801 0 0
Mistral最新开源数学模型 Mathstral,能不能算对 9.11 和 9.9谁大?|AI 鲜测

 

文章摘要


【关 键 词】 AI模型数学推理开源模型竞赛数学推理错误

近日,AI领域发生了一起令人惊讶的事件,一些大型AI模型如GPT-4o和Gemini在比较9.11和9.9大小的问题上出现了错误。
这一现象引发了对AI模型提示词优化和理解能力的广泛讨论。
在这一背景下,被誉为“欧洲OpenAI”的Mistral公司推出了Mathstral模型,专注于数学推理和科学问题,同时发布了基于Mamba2架构的开源模型Codestral Mamba(7B),专注于代码生成。
Mistral的CEO Arthur Mensch将这些模型的发布视为对即将到来的巴黎奥运会的献礼。

Mathstral模型基于Mistral 7B构建,支持32k的上下文窗口长度,并遵循Apache 2.0 license开源协议。
在初等数学、高中物理和大学物理等领域,Mathstral展现出了卓越的表现。
然而,在专业会计、美国税收政策和人类性学等领域,其表现则不尽如人意。
在Odyssey Math maj@16和GRE数学测试中,Mathstral的表现尤为出色,尽管在解决一般数学问题方面略逊于DeepSeek Math 7B,但在需要深入推理的难题上则显示出了明显的优势。
此外,Mathstral在AMC和AIME竞赛中的表现也证明了其在解决竞赛级别数学问题上的潜力。

尽管Mathstral在一些数学问题上表现出色,但在一些测试中也出现了错误。
例如,在比较9.11和9.9大小的问题上,Mathstral在保持同一提示词的前提下给出了错误答案,但在更换提示词顺序后,不仅给出了正确的解题思路,而且答案也是正确的。
在解决阿基米德分牛问题时,虽然提供了详细的解题过程,但最终答案仍然错误,且未能准确审题。
在证明题的测试中,虽然思路和过程正确,但存在多余的操作,论证不够严谨。

在初等数学题的测试中,Mathstral的表现则较为出色,能够正确解答问题。
作为一个7B规模的模型,Mathstral的开箱即用效果并未达到预期,对于复杂逻辑的题目可能会出现审题不清、逻辑出错等问题。
通过Ollama部署的Mathstral推理时间每道题在2-3秒左右,如果增加推理时间,可能会有更好的表现。
同时,Mistral.AI也推出了其第一个基于Mamba2架构的开源模型Codestral Mamba(7B),未来将对其进行更详细的体验评测。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1069字 | 5分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...