讯飞星火X1数学碾压o1封神,首个全国产算力推理王者诞生!多指标国内TOP 1

AIGC动态17小时前发布 AIera
85 0 0
讯飞星火X1数学碾压o1封神,首个全国产算力推理王者诞生!多指标国内TOP 1

 

文章摘要


【关 键 词】 科大讯飞推理模型国产算力AI应用教育医疗

科大讯飞最近发布了国内首个全国产算力深度推理模型——讯飞星火深度推理大模型X1。该模型在《通用认知智能大模型测评体系》指导下构建的测试集CogNKLab-MathEval-2.0中表现优异,其中文全学段数学及奥赛能力超越了OpenAI的o1模型,成为国内最佳。X1在多项指标上位居国内第一,且在小初高(含竞赛)、大学(含竞赛)、AIME、MATH 500等多项考试中成绩突出。X1擅长处理数学题等复杂任务,并具备全面的思考推理过程。科大讯飞现场展示了X1解答2024高考数学题、AIME数学竞赛题和国内高中数学奥数题的能力,均得到正确答案。

讯飞星火X1具备三大特点:化繁为简的长思维链分步解析、自我探索和反思验证的能力、根据优质reward进行强化训练的能力。科大讯飞在AI领域早有积累,如基于自我评价迭代的评语模型技术已用于高考作文评分,数学答题领域的多路径和反思迭代强化学习已用于数学教师助手。讯飞星火X1的发布,展示了科大讯飞在推理模型领域的技术实力和实战应用能力。

推理模型在AI技术商业化落地中扮演关键角色,国内外科技公司纷纷布局。推理模型性能直接影响产品用户体验,在搜索引擎、社交平台等大规模部署场景中,推理成本是核心问题。在资源有限的硬件中,轻量化推理模型是最佳选择。OpenAI的Scaling Law从预训练阶段转向推理阶段,即测试时计算,对算力消耗巨大。在中美竞争态势下,全国产算力拿下推理模型市场具有重大意义。

讯飞星火X1是昇腾算力体系下首个原生深度推理模型。技术团队在利用国产算力训练模型过程中,克服了数据构建、框架调优、模型验证等难题。X1不仅在国产算力上成功适配,还用更少算力实现了业界一流水平。讯飞星火X1已在教育、医疗等多个场景落地应用,如在北京八中、北京101中学、合肥七中等学校的数学教研组部署,获得一线教师好评。在医疗领域,X1在专科辅助诊断和复杂病例内涵质控方面的准确率达到90%。讯飞医疗计划在2025年上半年推出X1升级版医疗大模型,进一步提升诊断推理和质控能力。

讯飞星火X1的发布,不仅展现了中国AI队的创新实力,也为大模型的实战应用树立了新标杆。讯飞依托自身技术积累和专业研发团队,在X1模型上实现了突破性进展。讯飞星火大模型已在多个行业和应用场景落地,如教育、医疗、智慧城市、智能办公等。2024年,讯飞成为央国企大模型的首选合作伙伴,与200+行业头部企业共同打造行业大模型,覆盖300+应用场景。讯飞在2024年大模型招投标中独占鳌头,中标91个项目,中标金额达84780.8万元。讯飞星火X1的应用范围将进一步扩大,为中国AI队实力担当。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3396字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...