Llama 3.1 源模型泄露背后：失手的 GitHub，破碎的 Meta，好在最小参数都能打脸GPT-4o！

305 0 0

文章摘要

7月23日凌晨，Meta的新版大型语言模型（LLM）Llama 3.1 405B在4chan上泄露，并在多数基准测试中击败了GPT-4o。据悉，Meta可能很快正式发布Llama 3系列中最大的参数模型及70B版本。尽管泄露的Llama 3.1模型链接已失效，但网友保存的下载链接显示文件约763.84G。HugginFace上的链接也已被删除，但有网友猜测泄露可能来自第三方托管商。

Llama 3.1是在3.0版本基础上的功能迭代，70B模型在部分领域性能超过GPT-4o。有网友认为，如果评测数据真实，Meta的最顶级AI模型将免费开放，各国政府、组织和公司都能获得同等AI能力。但Llama 3.1虽免费，使用成本不低，需强大硬件支持，性价比不如GPT-4o mini。个人开发者难以负担，可能主要面向企业、政务部门。

Llama 3.1是8B、70B和405B大小的预训练和指令调整生成模型，针对多语言对话优化，在行业基准测试中表现优异。但与GPT 4o mini相比，70B模型编码性能较差，405B在HumanEval上也落后。Llama 3.1的数理能力有所提升，能解决简单数学问题。

Llama 3.1是自回归语言模型，使用优化的transformer架构，通过监督微调和强化学习调整，符合人类偏好。支持8种语言，接受更广泛语言训练，可微调其他语言。预训练使用15万亿token数据，微调数据包括公开指令数据集和2500万合成示例。训练使用Meta定制GPU集群，累计39.3M GPU小时，预估碳排放11390吨。

Llama 3.1免费开放引发欢呼，但也带来风险。其民主化将重塑社会、经济和治理结构，未来充满不确定性。Meta一直推迟405B系列发布，监管机构和法案是原因之一。Llama 3.1使用应作为AI系统一部分，提供安全护栏。开发人员应进行安全测试和调整，考虑多语言等因素。

总之，Llama 3.1的泄露和即将发布，展示了Meta在大型语言模型领域的最新进展。其免费开放将推动AI技术的普及和应用，但同时也带来潜在风险和挑战。如何平衡开放与安全，是Meta和整个AI行业需要思考的问题。