英伟达Mistral AI联袂出击！120亿小模型王者强势登场，碾压Llama 3单张4090可跑

AIGC动态1年前 (2024)发布 AIera

3,173 0 0

英伟达Mistral AI联袂出击！120亿小模型王者强势登场，碾压Llama 3单张4090可跑

文章摘要

Mistral AI与英伟达合作发布了一款名为Mistral NeMo的新型人工智能小模型，拥有12B参数并支持128K上下文。这款模型在多项基准测试中超越了其他同类产品，如Gemma 2 9B和Llama 3 8B，显示出卓越的性能。Mistral NeMo专为企业用户设计，使开发人员能够轻松定制和部署支持聊天机器人、多语言任务、编码和摘要的企业应用程序。

Mistral NeMo模型结合了Mistral AI在训练数据方面的专业知识和英伟达优化的硬件与软件生态系统，确保了模型的高性能。它在NVIDIA DGX Cloud AI平台上完成训练，利用了NVIDIA TensorRT-LLM和NVIDIA NeMo开发平台来提升模型性能。Mistral NeMo支持128K上下文，能够更连贯、准确地处理复杂信息，确保输出与上下文相关。在多轮对话、数学、常识推理、世界知识和编码等基准测试中，Mistral NeMo超越了同等参数规模的模型。

Mistral NeMo使用标准架构，易于使用，并且可以直接替代任何使用Mistral 7B的系统。作为一个拥有120亿参数的模型，它根据Apache 2.0许可证发布，允许任何人下载使用。此外，模型使用FP8数据格式进行模型推理，减少了内存大小并加快了部署速度，同时保持了准确性。

Mistral NeMo专为全球多语言应用程序设计，经过函数调用训练，具有较大的上下文窗口，支持包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语在内的多语言。它在多语言基准测试中表现出色，是将前沿人工智能模型带给全世界不同语言使用者的重要一步。

Mistral NeMo还使用了基于Tiktoken的全新分词器Tekken，该分词器针对100多种语言进行了训练，比之前的Mistral模型中使用的SentencePiece分词器更有效地压缩自然语言文本和源代码。Tekken在压缩源代码、中文、意大利语、法语、德语、西班牙语、俄语方面的效率提高了约30%，在压缩韩语和阿拉伯语方面的效率分别提高了2倍和3倍。

Mistral NeMo已经经过了高级微调和对齐阶段，在遵循精确指令、推理、处理多轮对话和生成代码方面表现优于Mistral 7B。它利用了Mistral AI的专业知识进行训练，尤其是在多语言、代码和多轮内容方面，受益于英伟达全堆栈的加速训练。模型使用NVIDIA NeMo的一部分Megatron-LM进行训练，在DGX Cloud上配备3,072个H100 80GB Tensor Core GPU，由NVIDIA AI架构组成，包括加速计算、网络结构和软件，以提高训练效率。

Mistral NeMo的可用性和部署非常灵活，可以在云、数据中心或RTX工作站等任何地方运行。用户可以通过ai.nvidia.com作为NVIDIA NIM体验Mistral NeMo，可下载的NIM版本即将推出。开发者现在可以使用mistral-inference试用Mistral NeMo，并使用mistral-finetune对其进行微调。Mistral NeMo在La Plateforme上以open-mistral-nemo-2407的名称公开，为希望实现先进人工智能的企业提供了强大且实用的组合技。