Llama3来了!Meta:如果我给每人发一个GPT-4,阁下如何应对

AIGC动态2个月前发布 Si-Planet
223 0 0
Llama3来了!Meta:如果我给每人发一个GPT-4,阁下如何应对

 

文章摘要


【关 键 词】 MetaLlama3开源模型大语言模型性能表现

今天,Meta正式发布了他们迄今为止最强大的新一代开源大语言模型Llama3。Llama3的发布包括两个版本:Llama3 8B和Llama3 70B,它们分别拥有80亿和700亿参数,并且都经过了预训练和指令微调。这两个模型在24K GPU定制集群上使用了15万亿tokens数据进行训练。Meta还在训练一个参数超过400B的“最大Llama3”模型,社区普遍认为这个模型可能会超越目前的闭源领导者GPT-4 Turbo。

Llama3在多个行业基准测试中表现出色,支持多种应用场景。在未来几个月,Meta计划引入多语言对话、多模态、更长上下文和更强大的核心性能等新功能,并与社区分享研究论文。扎克伯格和Meta首席AI科学家Yann LeCun在社交媒体上宣布了这一消息,引起了网友们的热烈讨论。

Llama3在多项测试中超越了Gemini 1.5和Claude Sonnet等模型,显示出在错误拒绝率、一致性和模型响应多样性方面的显著改进。Llama3 8B和70B版本在通用智能评估、困难任务、ARC挑战赛、DROP数据集等方面也表现出色,击败了多个竞争对手。

Meta在模型开发过程中注重创新、扩展规模和优化简洁性。Llama3采用了标准的纯解码器Transformer架构,并引入了分组查询注意力(GQA)机制和8192个tokens的序列训练。在训练数据方面,Llama3使用了超过15万亿个公开可用来源的tokens,数据量是Llama2的7倍,代码量是4倍。此外,Meta还开发了一系列数据过滤管道来保证数据质量,并进行了大量实验来评估不同来源数据的最佳混合方式。

为了更有效地利用预训练数据,Meta开发了一系列扩展法则,并结合了数据并行、模型并行和管道并行三种并行化方式来训练最大的Llama3模型。在指令微调方面,Meta采用了监督微调(SFT)、拒绝采样、邻近策略优化(PPO)和直接策略优化(DPO)的组合,以提高模型在聊天场景中的性能。

Llama3将很快在所有主要平台上可用,包括云服务商、API提供商等,并得到了多家硬件平台的支持。普通用户可以通过Meta AI在WhatsApp、Messenger、Instagram、Facebook等应用中体验Llama3,或者访问Meta AI的网页版。

Meta表示,Llama3 8B和70B只是Llama3系列的开始,未来还会有更多令人期待的功能。一个超过400B参数的最大模型正在训练中,预计将在未来几个月发布。这个模型可能会成为第一个GPT-4级别的开源模型,改变研究工作和创业公司的计算方法。开源模型追上闭源模型的历史时刻可能即将到来,这对开发者和创业公司意味着AI应用可以更快速地涌现和迭代。最后,文章以对GPT-5的期待和好奇结束。

原文和模型


【原文链接】 阅读原文 [ 2466字 | 10分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...