阿里发布推理模型QwQ-32B-Preview,性能超OpenAI o1-preview
文章摘要
【关 键 词】 推理模型、数学问题、深度自省、测试时计算、AI趋势
阿里巴巴的Qwen团队最近发布了QwQ-32B-Preview,这是一个拥有325亿参数的推理模型,能够处理高达32,000个Token的提示词,并且是首个在宽松许可下可供下载使用的模型。该模型在AIME和MATH-500测试中的表现超过了OpenAI的o1-preview和o1-mini,显示出其在数学问题解决能力上的优势。QwQ-32B-Preview展现了深度自省的能力,质疑自身假设并审视推理过程,但这也导致其在得出解决方案时需要更长的时间。
尽管QwQ-32B-Preview在数学和编程领域表现出色,但它也存在局限性,包括可能混合使用不同语言影响表达连贯性、在处理复杂逻辑问题时可能陷入递归推理模式、可能产生不恰当或存在偏见的回答,以及在其他领域仍有不足。该模型在Apache 2.0许可证下公开可用,可以用于商业应用,但目前仅发布了部分组件,无法完全复制或深入了解其内部工作原理。
在当前对Scaling Laws法则的质疑时期,主要人工智能实验室的模型进展已不如过去迅速,这促使业界探索新型人工智能方法、架构和开发技术,如测试时计算(推理计算)。这种技术给予模型额外的处理时间以完成任务,被认为是o1或QwQ-32B-Preview等模型的核心技术之一。除了OpenAI和阿里巴巴,谷歌等其他大模型实验室也认为测试时计算是未来趋势,并已投入大量计算资源。
原文和模型
【原文链接】 阅读原文 [ 916字 | 4分钟 ]
【原文作者】 AI大模型实验室
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...