Llama 3.1 405B VS Mistral Large 2，谁是开源之王？｜AI横评

AIGC动态1年前 (2024)发布 Si-Planet

2,988 0 0

Llama 3.1 405B VS Mistral Large 2，谁是开源之王？｜AI横评

文章摘要

最近，Meta和Mistral AI分别发布了Llama 3.1 405B和Mistral Large2两款大型AI模型。Llama 3.1 405B支持8种人类语言和多种计算机语言，而Mistral Large2则支持数十种人类语言和80多种编程语言。为了测试这些AI模型的多语言处理能力，作者通过Base64编码和解码的方式进行了评估。

Base64编码是一种将二进制数据转换为文本格式的编码方式，广泛应用于数据预处理、模型输入输出和数据安全等方面。通过Base64编码，可以评估AI模型对不同语言和编码格式的理解和处理能力，进而检验它们的多语言翻译能力、回答准确度和推理能力。

测试分为两轮，每轮三次对话，每答对一次记1分。第一轮为英文解码，第二轮为中文解码。在第一轮中，Llama 3.1 405B和Qwen2-72B均得3分，Mistral Large 2得2分，ChatGPT-4o得3分。在第二轮中，ChatGPT-4o得3分，而Llama 3.1 405B、Mistral Large 2和Qwen2-72B均得0分。

测试结果显示，ChatGPT-4o在多语言和编程语言解码方面表现最佳，无论是中文还是英文，都能轻松转换为理解的意思。Llama 3.1 405B和Qwen2-72B在英文解码方面表现不错，但在中文解码方面相对不足。Mistral Large 2虽然解码推理过程详细清晰，但在英文解码中出现错误，导致得分较低。

通过这次测试，我们发现大型AI模型在多语言处理上存在一定的不平衡。整体而言，英文回答普遍准确且清晰，但中文回答的准确度较低。编码和解码是信息传输中的关键步骤，涉及多个步骤和多种编码规则。任何一环出错，都可能导致解码结果不准确。因此，大型AI模型在多语言处理方面仍有很大的提升空间。