为什么要做长文本、长图文、长语音的大模型?深度解读讯飞星火V3.5春季上新
文章摘要
【关 键 词】 科大讯飞、讯飞星火、长文本、AI拟人、智能体平台
科大讯飞近期发布了讯飞星火大模型 V3.5 的新功能,其核心是推出了首个支持长文本、长图文、长语音的大模型,旨在提升用户在各种场景下高效获取信息的能力。这一新模型能够快速理解并学习文档、图文资料、会议录音等多种信息来源,并结合行业场景知识提供专业准确的回答。
为了测试新模型的性能,科大讯飞将一份长达70多页的人形机器人报告交给讯飞星火进行解析。结果显示,星火能够迅速上传并解析文件,清晰地总结报告的重点信息,并准确提炼出报告中关于特斯拉机器人的技术迭代、核心技术和部件、学习能力等关键信息。
根据七麦数据,讯飞星火APP在安卓端的下载量已超过9600万次,在国内工具类通用大模型APP中排名第一,显示出其技术进步正在获得越来越多用户的认可。
科大讯飞推出长文本、长图文、长语音大模型的原因是,用户在获取知识时面临的痛点包括资料形式的多样性、处理大量文本的效率问题以及专业度问题。为了解决这些问题,科大讯飞采用了稀疏剪枝技术和大模型知识蒸馏技术,推出了业界领先的130亿参数的大模型。在效果损失仅3%的情况下,大幅提升了文档上传解析处理、问答首响时间以及文字生成效率。
在长文本能力方面,讯飞星火具备长文档信息抽取、知识问答、总结、文本生成等能力,其水平已达到GPT-4 Turbo 4月最新版本的97%。在多个垂直领域的知识问答任务上,讯飞星火的表现甚至超过了GPT-4 Turbo。
在长图文能力方面,科大讯飞推出了星火图文识别大模型,能够处理复杂的图文场景,覆盖31个典型场景,并自动识别标注出18类不同的版面要素。其图文识别效果在国际权威英文测试集中超过了微软和谷歌,处于业界领先地位。
此外,科大讯飞还推出了长语音功能,结合多年储备的语音识别和翻译技术,能够实现会议录音、学习视频等的一键研读,满足音视频中信息高效获取的需求。
在AI拟人对话方面,科大讯飞推出了超拟人对话功能,使AI的声音更自然、真实,拟人度达到83%。通过多情感超拟人合成,进一步提升了情绪表达的可感知度,使AI语音更加生动、真实。
科大讯飞还推出了“一句话声音复刻”功能,用户只需在讯飞星火APP中跟读一句话,即可复刻出用户的声音。这一功能的实现基于大模型在通用任务上的出色表现,以及对海量人声数据的学习。
在解决实际刚需方面,科大讯飞董事长刘庆峰介绍了讯飞星火在招投标、合同、教育、科研等场景下的应用。例如,星火合同助手可以进行风险审核、合同比对、摘要总结和合同生成,帮助用户应对合同场景。在教育场景中,大模型升级了讯飞AI学习机产品,提升了作文和理科批改的精准度,智能化辅学的有效性,并升级了百科问答功能。此外,智慧黑板中也升级了实录功能和星火教师助手,后者融入长文本能力后,可以将优质教辅内容融入,提升备课效率。
在科研场景中,星火科研助手已在多个机构高校应用,提升了论文问答、综述生成、实验解读等的效果。面向企业场景,科大讯飞推出了智能体平台,以敏捷触达大模型企业落地的最后一公里。
刘庆峰透露,科大讯飞将在6月27日发布讯飞星火大模型V4.0,进一步实现对GPT-4 Turbo的对标。这次升级更加务实,旨在解决用户真实场景下的刚需。
原文和模型
【原文链接】 阅读原文 [ 3387字 | 14分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆