“语音识别”的搜索结果

又一新风口!空间计算时代:要么沉浸,要么死亡 | Q 福利
2024年,苹果公司发布了Vision Pro,标志着计算行为轨迹的又一次变革,类似于2007年iPhone的问世。Vision Pro引入了智能化、沉浸式的空...
OpenAI的《Her》难产,是被什么困住了手脚?
OpenAI的GPT-4o模型虽然在5月14日的发布会上展示了出色的实时音视频对话能力,但至今仍未公开发布。推迟的原因包括法律纠纷、安全问题以...
字节大模型同传智能体,一出手就是媲美人类的同声传译水平
近年来,人工智能在自然语言处理领域取得了显著进展,但同声传译(Simultaneous Interpretation, SI)依然是一个挑战。传统的同声传译软...
讯飞星火V4.0正式发布,全面对标GPT-4 Turbo,8个国际主流测试集测评第一
科大讯飞于6月27日在北京发布了讯飞星火大模型V4.0及其相关应用。该模型在七大核心能力上进行了全面提升,与GPT-4 Turbo全面对标,并在8...
OpenAI推迟GPT-4o语音模式,还需要一个月时间
原计划在6月底推出的GPT-4o语音模式将推迟一个月,以便进一步完善产品。预计今年秋天,所有ChatGPT Plus用户将能够使用这一功能。GPT-4o...
英伟达开源合成数据大模型:奖励模型,超过GPT-4 Turbo
全球人工智能领导者英伟达(Nvidia)于6月15日在其官网开源了一款名为Nemotron-4 340B的大模型,专为生成合成数据而设计。该模型能够快...
「汪汪」to Vector!密歇根博士生用AI解码狗的声音 | LREC 2024
研究人员开发了一款人工智能工具,能够区分狗叫声的不同含义,并识别狗的年龄、性别和品种。该工具基于语音识别模型Wav2Vec2,通过收集7...
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
近期研究表明,通过训练纯解码器生成模型,可以成功地生成包括音频、图像和状态-动作序列在内的多种模态的新序列。这些模型通常采用词汇...
a16z 发布 AI 语音 Agent 图谱:重塑通话的时机到了
AI语音助手的机遇: - AI语音助手通过重新定义电话,为企业节省成本,降低风险,为消费者提供低成本服务。 - 成功的语音助手需要关...
最难方言温州话被攻克!中国电信语音大模型支持30种方言,这题GPT-4o可不会做啊
中国电信人工智能研究院发布了一款能够识别和理解多达30种方言的语音大模型——“星辰语音大模型”。这一模型的核心功能主要体现在语音识别...
1 2 3 4 6