为什么要做长文本、长图文、长语音的大模型？深度解读讯飞星火V3.5春季上新

AIGC动态1年前 (2024)发布 almosthuman2014

2,208 0 0

文章摘要

科大讯飞近期发布了讯飞星火大模型 V3.5 的新功能，其核心是推出了首个支持长文本、长图文、长语音的大模型，旨在提升用户在各种场景下高效获取信息的能力。这一新模型能够快速理解并学习文档、图文资料、会议录音等多种信息来源，并结合行业场景知识提供专业准确的回答。

为了测试新模型的性能，科大讯飞将一份长达70多页的人形机器人报告交给讯飞星火进行解析。结果显示，星火能够迅速上传并解析文件，清晰地总结报告的重点信息，并准确提炼出报告中关于特斯拉机器人的技术迭代、核心技术和部件、学习能力等关键信息。

根据七麦数据，讯飞星火APP在安卓端的下载量已超过9600万次，在国内工具类通用大模型APP中排名第一，显示出其技术进步正在获得越来越多用户的认可。

科大讯飞推出长文本、长图文、长语音大模型的原因是，用户在获取知识时面临的痛点包括资料形式的多样性、处理大量文本的效率问题以及专业度问题。为了解决这些问题，科大讯飞采用了稀疏剪枝技术和大模型知识蒸馏技术，推出了业界领先的130亿参数的大模型。在效果损失仅3%的情况下，大幅提升了文档上传解析处理、问答首响时间以及文字生成效率。

在长文本能力方面，讯飞星火具备长文档信息抽取、知识问答、总结、文本生成等能力，其水平已达到GPT-4 Turbo 4月最新版本的97%。在多个垂直领域的知识问答任务上，讯飞星火的表现甚至超过了GPT-4 Turbo。

在长图文能力方面，科大讯飞推出了星火图文识别大模型，能够处理复杂的图文场景，覆盖31个典型场景，并自动识别标注出18类不同的版面要素。其图文识别效果在国际权威英文测试集中超过了微软和谷歌，处于业界领先地位。

此外，科大讯飞还推出了长语音功能，结合多年储备的语音识别和翻译技术，能够实现会议录音、学习视频等的一键研读，满足音视频中信息高效获取的需求。

在AI拟人对话方面，科大讯飞推出了超拟人对话功能，使AI的声音更自然、真实，拟人度达到83%。通过多情感超拟人合成，进一步提升了情绪表达的可感知度，使AI语音更加生动、真实。

科大讯飞还推出了“一句话声音复刻”功能，用户只需在讯飞星火APP中跟读一句话，即可复刻出用户的声音。这一功能的实现基于大模型在通用任务上的出色表现，以及对海量人声数据的学习。

在解决实际刚需方面，科大讯飞董事长刘庆峰介绍了讯飞星火在招投标、合同、教育、科研等场景下的应用。例如，星火合同助手可以进行风险审核、合同比对、摘要总结和合同生成，帮助用户应对合同场景。在教育场景中，大模型升级了讯飞AI学习机产品，提升了作文和理科批改的精准度，智能化辅学的有效性，并升级了百科问答功能。此外，智慧黑板中也升级了实录功能和星火教师助手，后者融入长文本能力后，可以将优质教辅内容融入，提升备课效率。

在科研场景中，星火科研助手已在多个机构高校应用，提升了论文问答、综述生成、实验解读等的效果。面向企业场景，科大讯飞推出了智能体平台，以敏捷触达大模型企业落地的最后一公里。

刘庆峰透露，科大讯飞将在6月27日发布讯飞星火大模型V4.0，进一步实现对GPT-4 Turbo的对标。这次升级更加务实，旨在解决用户真实场景下的刚需。