阿里除夕发布Qwen2.5-Max反超DeepSeek V3,一句话开发小游戏

AIGC动态1天前发布 QbitAI
123 0 0
阿里除夕发布Qwen2.5-Max反超DeepSeek V3,一句话开发小游戏

 

文章摘要


【关 键 词】 MoE模型预训练多模态Qwen2.5-Max阿里云

阿里通义Qwen发布了新春节礼Qwen2.5-Max,这是一个超大规模的MoE模型,经过超过20万亿token的预训练数据和SFT+RLHF后训练方案的训练。在多个基准测试中,Qwen2.5-Max超越了DeepSeek V3、Llama-3.1-405B等模型,整体表现优异。该模型不仅在基座模型对比中超越了DeepSeek V3和Llama-3.1-405B,还在针对模型知识理解和推理能力的MMLU-Pro等基准上表现不凡。

Qwen2.5-Max展现了强大的多模态能力,在联网搜索、代码能力、Artifacts功能等多个使用场景上都有出色的表现。例如,在联网搜索功能中,Qwen2.5-Max能够输出每句话的来源出处,并保证整体运行流畅。在代码能力方面,该模型能够帮助用户完成各种可视化创作,如一句话生成旋转球体。此外,Qwen2.5-Max还具备开发小应用、小游戏的能力,如扫雷小游戏,以及数单词中特定字母数量的功能。

目前,Qwen2.5-Max已在Qwen Chat中上线,并可通过Hugging Face的Demo体验,Any Chat也已上线,同时可通过阿里云服务使用API。阿里研究员对Qwen2.5-Max的发布表示兴奋,并鼓励大家尝试使用,共同庆祝新年。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 581字 | 3分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...