讯飞星火X1数学碾压o1封神，首个全国产算力推理王者诞生！多指标国内TOP 1

1,713 0 0

文章摘要

科大讯飞最近发布了国内首个全国产算力深度推理模型——讯飞星火深度推理大模型X1。该模型在《通用认知智能大模型测评体系》指导下构建的测试集CogNKLab-MathEval-2.0中表现优异，其中文全学段数学及奥赛能力超越了OpenAI的o1模型，成为国内最佳。X1在多项指标上位居国内第一，且在小初高（含竞赛）、大学（含竞赛）、AIME、MATH 500等多项考试中成绩突出。X1擅长处理数学题等复杂任务，并具备全面的思考推理过程。科大讯飞现场展示了X1解答2024高考数学题、AIME数学竞赛题和国内高中数学奥数题的能力，均得到正确答案。

讯飞星火X1具备三大特点：化繁为简的长思维链分步解析、自我探索和反思验证的能力、根据优质reward进行强化训练的能力。科大讯飞在AI领域早有积累，如基于自我评价迭代的评语模型技术已用于高考作文评分，数学答题领域的多路径和反思迭代强化学习已用于数学教师助手。讯飞星火X1的发布，展示了科大讯飞在推理模型领域的技术实力和实战应用能力。

推理模型在AI技术商业化落地中扮演关键角色，国内外科技公司纷纷布局。推理模型性能直接影响产品用户体验，在搜索引擎、社交平台等大规模部署场景中，推理成本是核心问题。在资源有限的硬件中，轻量化推理模型是最佳选择。OpenAI的Scaling Law从预训练阶段转向推理阶段，即测试时计算，对算力消耗巨大。在中美竞争态势下，全国产算力拿下推理模型市场具有重大意义。

讯飞星火X1是昇腾算力体系下首个原生深度推理模型。技术团队在利用国产算力训练模型过程中，克服了数据构建、框架调优、模型验证等难题。X1不仅在国产算力上成功适配，还用更少算力实现了业界一流水平。讯飞星火X1已在教育、医疗等多个场景落地应用，如在北京八中、北京101中学、合肥七中等学校的数学教研组部署，获得一线教师好评。在医疗领域，X1在专科辅助诊断和复杂病例内涵质控方面的准确率达到90%。讯飞医疗计划在2025年上半年推出X1升级版医疗大模型，进一步提升诊断推理和质控能力。

讯飞星火X1的发布，不仅展现了中国AI队的创新实力，也为大模型的实战应用树立了新标杆。讯飞依托自身技术积累和专业研发团队，在X1模型上实现了突破性进展。讯飞星火大模型已在多个行业和应用场景落地，如教育、医疗、智慧城市、智能办公等。2024年，讯飞成为央国企大模型的首选合作伙伴，与200+行业头部企业共同打造行业大模型，覆盖300+应用场景。讯飞在2024年大模型招投标中独占鳌头，中标91个项目，中标金额达84780.8万元。讯飞星火X1的应用范围将进一步扩大，为中国AI队实力担当。