开源超闭源！通义千问Qwen2发布即爆火，网友：GPT-4o危

AIGC动态1年前 (2024)发布 QbitAI

2,822 0 0

文章摘要

在人工智能领域，开源大模型Qwen2的亮相引起了广泛关注。这款由阿里巴巴推出的模型在性能上全面超越了同为开源标杆的Llama 3，仅在发布两小时后便登顶HuggingFace开源大模型榜单。Qwen2-72B在包括HumanEval、MATH等多项国际权威测评中均取得优异成绩，尤其在代码和数学能力上表现突出。

值得关注的是，Qwen2不仅在开源模型中独领风骚，更超越了国内众多闭源大模型，实现了性能的代际提升。在短短一天内，其下载量便突破了3万次，显示出其广泛的影响力。此外，Qwen2的开源许可改为Apache 2.0，使得用户可以更加自由地商用。

Qwen2的技术细节也颇具亮点。全系列模型均采用了GQA（Grouped Query Attention）机制，有助于降低计算复杂度和提高计算效率。针对小模型，研发团队采用了tie embedding的方法，而所有Instruct模型均在32K上下文长度上进行训练，并支持更长的上下文处理。特别值得一提的是，Qwen2在处理128K上下文长度内的信息抽取任务时，表现几乎完美。

在数据方面，Qwen2进一步探索了Scaling Law的路线，通过大规模高质量数学数据提升了模型的数学能力，并在训练数据中增加了27种语言相关的高质量数据，增强了多语言能力。这些技术突破和数据优化使得Qwen2成为了全球开源大模型中的佼佼者。