科大讯飞做大模型：功能不需样样冒尖，先打造业务需要的能力

2,342 0 0

文章摘要

科大讯飞副总裁、研究院院长刘聪表示，讯飞研究院自成立以来，一直为公司产品提供技术支持。在当前大模型浪潮中，讯飞研究院也在积极进行相关研发。2022年12月，讯飞启动了”1+N人工智能大模型技术及应用”专项攻关，其中”1″代表通用人工智能大模型底座，”N”代表将技术应用于教育、医疗、汽车、办公、智能硬件等多个行业领域。

过去一年多时间里，讯飞研究院已将星火大模型迭代至4.0版本，从最初的对标GPT-3.5更新至最新的GPT-4 Turbo。讯飞去年产品发布节奏明显加快，基本上2-3个月就有一次产品发布。刘聪认为，这源于讯飞会提前做好发布计划，让大家感受到每个大版本之间的变化。

今年，讯飞的节奏导向已与去年有所不同。刘聪表示，讯飞现在既关注通用底座大模型，同时也在探索如何提升小模型的能力和效果。他认为，大模型与小模型并行发展已是行业趋势。在选择大模型还是小模型时，主要看场景需要什么样的模型。讯飞将一般任务定义为使用中小规模模型即可搞定的应用，而中等任务和高难度任务则需要大模型来解决。

讯飞研究院的一项重要任务是围绕”N”中的刚需场景，把大模型应用做透彻，深入解决系统化问题。在基础能力上，讯飞有选择地进行研发，最关注的能力之一是数学，因为数学能力与推理结合是大模型聪明的表现。此外，讯飞将重点放到OCR上，确保OCR做到最好。

在应用方面，讯飞研究院的研发工作与业务紧密相连。在研发之前，研究院要与业务部门达成深度共识。讯飞被外界认为是较少能真正将技术实现产品落地的企业，刘聪认为这背后的核心原因是讯飞更加深入场景。讯飞选择在已积累的行业优势基础上进行大模型探索，这是大多数相对成熟公司会选择的风险相对较低的策略。

讯飞业务中，硬件是不可忽略的一部分，如面向教育的学习机、批阅机等。讯飞业务的特点之一就是每个行业都有软硬件的差异。硬件模式又能助力软件，例如翻译机和办公本都有一些大模型应用来升级体验。

在对外服务中，刘聪观察到，大模型的应用范围已经逐渐变大，如金融这样的代表性场景已经往央国企拓展。对应用大模型的企业来说，产品价值最重要的是能否降本增效。讯飞在对B端业务服务过程中，发现算力统一难和整个数据管理难等问题。为此，讯飞通过智能体平台这样的服务来解决。

刘聪总结了两点经验：一是不必专门针对”N”，可以将其合入”1″的能力中；二是统一模型接口和数据接口。他认为，虽然”1+N”是动态发展的，但不能放弃，如果不演进，三个月就不行了。随着模型规模的增大，研发周期会逐渐拉长，大模型技术后续可能不一定还那么卷。

在大模型争夺战中，讯飞给自己的定位是”综合能力是头部，在自己擅长的地方保持耐心和耐力”。刘聪表示，大模型的企业同质化严重，想要在每个领域都做到最好很难，OpenAI和谷歌都做不到。讯飞还要给用户习惯的时间，通过产品培养用户和客户的耐心。