文章摘要
【关 键 词】 语音识别、多模态、科大讯飞、智能助手、AI技术
科大讯飞的讯飞星火4.0版本在语音识别和多模态能力方面取得了显著进步。在强干扰环境下,如多人同时说话和背景音乐,讯飞星火4.0能够准确识别并转化为文字,解决了“鸡尾酒会”难题。此外,讯飞星火4.0在图文识别、复杂指令理解、逻辑推理、空间推理、数学和多模态理解等复杂能力上也有所提升。
讯飞星火4.0在国内外中英文12项主流测试集中,实现了8项第一,包括理解推理、综合考试、数学等维度的中英文测试。尽管在代码和多模态能力方面还有差距,但讯飞星火4.0的长文本通用能力和内容溯源功能进行了全新升级,能够降低大模型的幻觉,提高回答的准确性。
讯飞星火4.0的语音大模型支持74种语言免切换自由对话,包括37种语种、37种方言,识别效果领先于OpenAI whisper-V3。在高噪声环境下,讯飞星火4.0的语音识别准确率依然能够达到90%以上。
科大讯飞的《多语种智能语音关键技术及产业化》项目获得国家科学技术进步奖一等奖,体现了其在语音领域的领先地位。讯飞星火4.0的应用体验在各行业各场景中得到进一步升维,成为懂你的AI助手。通过个性化表达、记忆学习和增强学习,讯飞星火4.0能够构建用户个人画像,生成个性化和针对性内容。
讯飞星火APP和Desk界面升级,新增「个人空间」功能,能够收集管理用户上传的资料,构建专属知识库。同时,讯飞星火APP集成了多种AI助手,如医疗助手、英语听说助手、数学答题助手等,为用户提供实用功能。首批已上线14个智能体,展示了讯飞星火4.0在个性化AI助手方面的强大能力。
原文和模型
【原文链接】 阅读原文 [ 4738字 | 19分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★