国产大模型新高度!讯飞星火4.0发布:整体超越GPT-4 Turbo,8个国际权威测试集测评第一
文章摘要
【关 键 词】 科大讯飞、星火V4.0、技术领先、医疗应用、多语种支持
科大讯飞近日发布了其最新的讯飞星火大模型V4.0,标志着国内大模型技术能力达到新高度。新版本在七大核心能力上进行了全面升级,包括文本生成、语言理解、知识问答、逻辑推理和数学等,在8个国际主流测试集中排名第一,整体性能超越了GPT-4 Turbo,领先于国内其他大模型。星火V4.0基于全国首个国产万卡算力集群“飞星一号”训练而成,实现了完全自主可控。
星火V4.0在多个方面进行了性能优化和功能创新,特别是在复杂指令跟随、长文本处理能力上进行了加强,并业界首发了长文本内容溯源功能,减少了长文档知识问答任务中的幻觉,提高了答案的准确率。在多模态方面,星火图文识别能力持续升级,在科研、金融、医疗、司法和办公等专业领域的图文识别能力获得极大提升,超越了OpenAI的GPT-4o模型。此外,星火大模型V4.0在教育复杂场景的图文识别任务中也表现突出,显著超越了GPT-4o。
在语音能力方面,科大讯飞的星火语音大模型进行了重磅升级,除了37个主流语种,还增加了对37种方言的识别,实现了37个语种加37个方言共74种语言的免切换自由交流。科大讯飞还展示了其超复杂场景下的语音转写能力,能够在噪音场景下实现多人重叠语音的角色分离和实时转写。
在医疗领域,讯飞推出了面向C端的医疗大模型应用“讯飞晓医”,提供体检报告分析等功能,以及面向B端的“智医助理”,提供预问诊等能力。星火V4.0在医疗核心能力上全面超过GPT-4 Turbo和GPT-4o,面向医生端的“智医助理”已实现辅助诊断8.2亿次,修正诊断147万次,帮助发现7267万不合理处方数。面向个人端的App“讯飞晓医”为普通用户提供病历、体检报告、检查报告的解读,集合各类健康信息,为用户提供个人数字健康空间。
总体来看,讯飞星火大模型V4.0的发布展示了国产大语言模型全面超越国外竞品的实力,并为基于大模型的应用落地打下了坚实的能力基础。
原文和模型
【原文链接】 阅读原文 [ 4627字 | 19分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★