语音模型 | 学习AIGC

开源端到端语音大模型：直接从原始音频输入，生成语音输出

Step-Audio团队近期开源了一个端到端的语音大模型Step-Audio-AQAA，该模型能够直接理解音频输入并生成自然流畅的语音回答，而无需先将语音转换为文本。这一技...

AIGC动态

2个月前

实测文小言升级：开始「卷体验」的百度都眉清目秀了

文小言在3月31日迎来了一次全面升级，新增了多模型融合调度、全新语音大模型、图片问答、拍题讲解等多种功能。这些升级不仅提升了其智能化水平，还显著改善了...

AIGC动态

5个月前

OpenAI语音智能体诞生，怼脸实拍语气狂到飞起！API降到每分钟0.3美分

OpenAI最新发布的音频模型标志着语音智能体时代的正式开启。此次发布的三款模型——gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts，分别专注于...

AIGC动态

5个月前

刚刚，OpenAI首发语音Agent，智能体实现重大突破

OpenAI在凌晨的技术直播中发布了三款全新的语音模型，分别是GPT-40 Transcribe、GPT-4 Mini Transcribe和GPT-40 Mini TTS。这些模型专注于语音AI Agent的开发...

AI-Agent

5个月前

语音模型平台Cartesia获6400万美元，只需3秒克隆语音

语音模型平台Cartesia宣布获得6400万美元A轮融资，由Kleiner Perkins领投。同时，Cartesia推出了最新语音模型Sonic 2.0和Sonic Turbo，其中Sonic 2.0的语音克...

AIGC动态

5个月前

WebRTC创建者加入了OpenAI，他如何思考语音AI的未来？

WebRTC的联合创始人Justin Uberti，同时也是Fixie.ai的联合创始人兼CTO，宣布加入OpenAI领导实时AI项目。Uberti在Google时期参与创建并领导了WebRTC项目，并...

AI-Agent

8个月前

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

智谱清言近期宣布全量上线「情感语音通话」功能，为用户带来端到端的情感语音体验。该功能在响应速度、情绪感知、语音表达、多语言支持等方面实现突破，提供...

AIGC动态

10个月前

开源版GPT-4o来了，AI大神Karpathy盛赞！67页技术报告全公开

法国初创团队Kyutai开发的端到端语音模型Moshi已经开源，该模型以其自然聊天、情绪丰富、支持打断和非回合制对话等特点受到关注。模型参数量为7.69B，支持在p...

AIGC动态

11个月前

阿里开源新语音模型，比OpenAI的Whisper更好！

阿里巴巴公司在Qwen-Audio的基础上推出了新一代的开源语音模型Qwen2-Audio，该模型在多个方面进行了显著的优化和改进。Qwen2-Audio模型包含基础版和指令微调...

AIGC动态

1年前 (2024)

比OpenAI的Whisper快50%，最新开源语音模型

生成式AI公司aiOla在其官网开源了一款名为Whisper-Medusa的语音模型，该模型在推理效率上相较于OpenAI的Whisper模型提升了50%。Whisper-Medusa在Whisper的基...

AIGC动态

1年前 (2024)

标签：语音模型

开源端到端语音大模型：直接从原始音频输入，生成语音输出

实测文小言升级：开始「卷体验」的百度都眉清目秀了

OpenAI语音智能体诞生，怼脸实拍语气狂到飞起！API降到每分钟0.3美分

刚刚，OpenAI首发语音Agent，智能体实现重大突破

语音模型平台Cartesia获6400万美元，只需3秒克隆语音

WebRTC创建者加入了OpenAI，他如何思考语音AI的未来？

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

开源版GPT-4o来了，AI大神Karpathy盛赞！67页技术报告全公开

阿里开源新语音模型，比OpenAI的Whisper更好！

比OpenAI的Whisper快50%，最新开源语音模型

热门网址

标签：语音模型

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址