标签:语音识别
全球首个AI眼镜支付技术落地,Rokid称明年量产目标100万台
全球首个AI眼镜支付技术正式落地,标志着智能眼镜产业进入支付时代。Rokid与支付宝合作推出的Rokid Glasses内置了“看一下支付”功能,用户只需通过语音指令结...
13年死磕一个真理,这家中国AI黑马冲刺IPO
深圳地铁20号线上,一位老人用方言对着售票机说出目的地后,机器仅用1.5秒就准确出票,而传统方式需要15秒。这一场景背后是云知声数万小时方言训练的成果,展...
OpenAI深夜发布3个全新的语音模型,一手实测都在这了。
OpenAI近期发布了一系列新的语音和文本处理模型,包括两个语音转文本(STT)模型和一个文本生成语音(TTS)模型。这些模型通过API提供接入方式,旨在提升语音...
微软Phi-4家族新增两位成员,5.6B多模态单任务超GPT-4o,3.8B小模型媲美千问7B
微软于2024年底推出的Phi-4模型家族新增Phi-4-multimodal和Phi-4-mini两个成员,标志着小型语言模型在性能与效率上的重大突破。140亿参数的Phi-4使用40%合成...
阶跃星辰再拿多模态榜首,全方位升级发布六款模型
随着春节的临近,2025年初大模型领域迎来了新一轮的竞争高潮。OpenAI的ChatGPT推出了新功能“Tasks”,而国内厂商如月之暗面、MiniMax、生数科技等也纷纷发布了...
小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?| 智者访谈
Daniel Povey博士,Kaldi项目的创始人和小米集团语音首席科学家,在访谈中分享了他对AI发展、语音识别技术以及多模态能力融合的深刻见解。Povey博士认为,尽...
刚刚,OpenAI发布Windows版ChatGPT,高级语音能用了
OpenAI于今日凌晨向Windows用户全面开放了桌面版ChatGPT,该版本具备拍照识别和高级语音两大特色功能。用户可以通过拍摄山水画等图片,基于图片内容进行提问...
字节大模型同传智能体,一出手就是媲美人类的同声传译水平
近年来,人工智能在自然语言处理领域取得了显著进展,但同声传译(Simultaneous Interpretation, SI)依然是一个挑战。传统的同声传译软件通常采用级联模型,...
炸裂!讯飞现场大秀强干扰语音识别,星火4.0霸榜八个榜单,74种语言自由交流
科大讯飞的讯飞星火4.0版本在语音识别和多模态能力方面取得了显著进步。在强干扰环境下,如多人同时说话和背景音乐,讯飞星火4.0能够准确识别并转化为文字,...
讯飞星火V4.0正式发布,全面对标GPT-4 Turbo,8个国际主流测试集测评第一
科大讯飞于6月27日在北京发布了讯飞星火大模型V4.0及其相关应用。该模型在七大核心能力上进行了全面提升,与GPT-4 Turbo全面对标,并在8个国际主流测试集中取...
1
2