文章摘要
【关 键 词】 阿里云、技术更新、开源模型、Qwen2-72B、性能超越
阿里云更新了其技术博客,并发布了一款新的开源模型Qwen2-72B,这一模型在性能上超越了美国的Llama3-70B以及众多中国闭源大模型,如文心4.0、豆包pro和混元pro。Qwen2-72B现在可以在魔搭社区和Hugging Face平台上免费下载。
Qwen2系列模型相比于之前发布的Qwen1.5实现了性能的显著提升。在OpenCompass权威模型测评榜单上,Qwen1.5-110B已居中国闭源模型之首,而Qwen2-72B在整体性能上又较Qwen1.5-110B有了大幅提高。Qwen2系列在代码、数学、推理、指令遵循和多语言理解等方面的能力均得到增强,并在多个国际权威测评中斩获世界冠军。
通义千问团队披露,Qwen2系列包含5个不同尺寸的预训练和指令微调模型,并采用了分组查询注意力(GQA)机制,提升了推理速度和减少了显存占用。此外,模型训练数据增加了27种语言的高质量数据,增强了多语言能力。Qwen2-72B-Instruct能完美处理上下文长度达128k的信息抽取任务。
通义千问Qwen系列模型的下载量在过去一个月内翻了一倍,超过了1600万次,全球基于Qwen的二次开发模型已超过1500款。Qwen系列模型在HuggingFace的Open LLM Leaderboard开源模型榜单上也多次登顶。
6月7日,Qwen2系列模型的API在阿里云百炼平台上线,同时全球多个开源平台和工具宣布支持该系列模型,使其成为除了美国Llama开源生态外的另一主流选择。这标志着内容推荐大型语言模型(LLM)在应对日益广泛的应用实践和更大的技术挑战中,迈出了重要的一步。
原文和模型
【原文链接】 阅读原文 [ 1103字 | 5分钟 ]
【原文作者】 AI前线
【摘要模型】 glm-4
【摘要评分】 ★★☆☆☆