Llama 3.1 源模型泄露背后:失手的 GitHub,破碎的 Meta,好在最小参数都能打脸GPT-4o!

AIGC动态5个月前发布 ai-front
839 0 0
Llama 3.1 源模型泄露背后:失手的 GitHub,破碎的 Meta,好在最小参数都能打脸GPT-4o!

 

文章摘要


【关 键 词】 MetaLlama 3.1AI模型语言模型免费开放

7月23日凌晨,Meta的新版大型语言模型(LLM)Llama 3.1 405B在4chan上泄露,并在多数基准测试中击败了GPT-4o。据悉,Meta可能很快正式发布Llama 3系列中最大的参数模型及70B版本。尽管泄露的Llama 3.1模型链接已失效,但网友保存的下载链接显示文件约763.84G。HugginFace上的链接也已被删除,但有网友猜测泄露可能来自第三方托管商。

Llama 3.1是在3.0版本基础上的功能迭代,70B模型在部分领域性能超过GPT-4o。有网友认为,如果评测数据真实,Meta的最顶级AI模型免费开放,各国政府、组织和公司都能获得同等AI能力。但Llama 3.1虽免费,使用成本不低,需强大硬件支持,性价比不如GPT-4o mini。个人开发者难以负担,可能主要面向企业、政务部门。

Llama 3.1是8B、70B和405B大小的预训练和指令调整生成模型,针对多语言对话优化,在行业基准测试中表现优异。但与GPT 4o mini相比,70B模型编码性能较差,405B在HumanEval上也落后。Llama 3.1的数理能力有所提升,能解决简单数学问题。

Llama 3.1是自回归语言模型,使用优化的transformer架构,通过监督微调和强化学习调整,符合人类偏好。支持8种语言,接受更广泛语言训练,可微调其他语言。预训练使用15万亿token数据,微调数据包括公开指令数据集和2500万合成示例。训练使用Meta定制GPU集群,累计39.3M GPU小时,预估碳排放11390吨。

Llama 3.1免费开放引发欢呼,但也带来风险。其民主化将重塑社会、经济和治理结构,未来充满不确定性。Meta一直推迟405B系列发布,监管机构和法案是原因之一。Llama 3.1使用应作为AI系统一部分,提供安全护栏。开发人员应进行安全测试和调整,考虑多语言等因素。

总之,Llama 3.1的泄露和即将发布,展示了Meta在大型语言模型领域的最新进展。其免费开放将推动AI技术的普及和应用,但同时也带来潜在风险和挑战。如何平衡开放与安全,是Meta和整个AI行业需要思考的问题。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2338字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...