开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危

AIGC动态6个月前发布 QbitAI
1,160 0 0
开源超闭源!通义千问Qwen2发布即爆火,网友:GPT-4o危

 

文章摘要


【关 键 词】 人工智能开源模型Qwen2性能超越技术亮点

人工智能领域,开源大模型Qwen2的亮相引起了广泛关注。这款由阿里巴巴推出的模型在性能上全面超越了同为开源标杆的Llama 3,仅在发布两小时后便登顶HuggingFace开源大模型榜单。Qwen2-72B在包括HumanEval、MATH等多项国际权威测评中均取得优异成绩,尤其在代码和数学能力上表现突出

值得关注的是,Qwen2不仅在开源模型中独领风骚,更超越了国内众多闭源大模型,实现了性能的代际提升。在短短一天内,其下载量便突破了3万次,显示出其广泛的影响力。此外,Qwen2的开源许可改为Apache 2.0,使得用户可以更加自由地商用。

Qwen2的技术细节也颇具亮点。全系列模型均采用了GQA(Grouped Query Attention)机制,有助于降低计算复杂度和提高计算效率。针对小模型,研发团队采用了tie embedding的方法,而所有Instruct模型均在32K上下文长度上进行训练,并支持更长的上下文处理。特别值得一提的是,Qwen2在处理128K上下文长度内的信息抽取任务时,表现几乎完美。

在数据方面,Qwen2进一步探索了Scaling Law的路线,通过大规模高质量数学数据提升了模型的数学能力,并在训练数据中增加了27种语言相关的高质量数据,增强了多语言能力。这些技术突破和数据优化使得Qwen2成为了全球开源大模型中的佼佼者。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3452字 | 14分钟 ]
【原文作者】 量子位
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...