PK OpenAI o1,国产模型在高难度数学和算法竞赛的能力几何?
文章摘要
【关 键 词】 人工智能、推理模型、评测活动、国产模型、性能提升
在人工智能领域,推理模型的竞争日益激烈,尤其是OpenAI的o1系列模型在科学领域应用中取得了显著成就。国产模型如上海人工智能实验室的InternThinker-Alpha、DeepSeek的DeepSeek-R1-Lite等也在崛起,试图在这一领域占据重要地位。AGI-Eval组织了一系列评测活动,聚焦数学与代码竞赛题目的评测结果,分析了OpenAI的o1、InternThinker-Alpha、DeepSeek-R1-Lite等模型的差异和优势。
评测发现,这些模型通过增加推理时间和推理tokens数量,模拟人类的思考和反思过程,显著增强了推理能力。在数学竞赛题目评测中,阿里巴巴的QwQ-32B-Preview在考研数学题方面正确率达到0.833,而DeepSeek-R1-Lite以0.667的正确率位列国内模型第一。在算法竞赛题评测中,o1系列保持显著优势,但其他国产模型也展现出了实力。
AGI-Eval提出了人机协作评测新模式,参与者可以与大模型共同完成任务,提高任务完成度并建立直观的区分度。平台自建万量级私有数据,并经过多次质检保证准确率,实现自动与人工评测相结合。
推理模型面临的挑战包括数据训练与语料问题、推理纠错与死循环、模型校准与性能提升。未来,通过优化数据策略、改进算法设计、完善评估体系等多方面的努力,有望进一步提升推理模型的性能,推动人工智能从感知智能向认知智能的深度跨越。AGI-Eval社区将设计更具难度、区分度的问题,更新榜单、给出答案,探索最强推理模型的极限。
原文和模型
【原文链接】 阅读原文 [ 3728字 | 15分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆