Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

AIGC动态1年前 (2024)更新 Si-Planet

3,128 0 0

Mistral最新开源数学模型 Mathstral，能不能算对 9.11 和 9.9谁大？｜AI 鲜测

文章摘要

近日，AI领域发生了一起令人惊讶的事件，一些大型AI模型如GPT-4o和Gemini在比较9.11和9.9大小的问题上出现了错误。
这一现象引发了对AI模型提示词优化和理解能力的广泛讨论。
在这一背景下，被誉为“欧洲OpenAI”的Mistral公司推出了Mathstral模型，专注于数学推理和科学问题，同时发布了基于Mamba2架构的开源模型Codestral Mamba（7B），专注于代码生成。
Mistral的CEO Arthur Mensch将这些模型的发布视为对即将到来的巴黎奥运会的献礼。

Mathstral模型基于Mistral 7B构建，支持32k的上下文窗口长度，并遵循Apache 2.0 license开源协议。
在初等数学、高中物理和大学物理等领域，Mathstral展现出了卓越的表现。
然而，在专业会计、美国税收政策和人类性学等领域，其表现则不尽如人意。
在Odyssey Math maj@16和GRE数学测试中，Mathstral的表现尤为出色，尽管在解决一般数学问题方面略逊于DeepSeek Math 7B，但在需要深入推理的难题上则显示出了明显的优势。
此外，Mathstral在AMC和AIME竞赛中的表现也证明了其在解决竞赛级别数学问题上的潜力。

尽管Mathstral在一些数学问题上表现出色，但在一些测试中也出现了错误。
例如，在比较9.11和9.9大小的问题上，Mathstral在保持同一提示词的前提下给出了错误答案，但在更换提示词顺序后，不仅给出了正确的解题思路，而且答案也是正确的。
在解决阿基米德分牛问题时，虽然提供了详细的解题过程，但最终答案仍然错误，且未能准确审题。
在证明题的测试中，虽然思路和过程正确，但存在多余的操作，论证不够严谨。

在初等数学题的测试中，Mathstral的表现则较为出色，能够正确解答问题。
作为一个7B规模的模型，Mathstral的开箱即用效果并未达到预期，对于复杂逻辑的题目可能会出现审题不清、逻辑出错等问题。
通过Ollama部署的Mathstral推理时间每道题在2-3秒左右，如果增加推理时间，可能会有更好的表现。
同时，Mistral.AI也推出了其第一个基于Mamba2架构的开源模型Codestral Mamba（7B），未来将对其进行更详细的体验评测。