
文章摘要
火山引擎发布了豆包·播客模型,这一AI工具能够生成高度拟真的双人对话播客,其语音表现力与真人几乎无异。用户只需在豆包PC版中点击“网页播客”按钮,即可快速生成带有字幕的音频内容,整个过程仅需5秒左右。该模型已在扣子空间上线,支持通过Prompt生成播客,具备易操作、实时性强、观点鲜明等特点。
在实时性方面,豆包·播客模型能够根据微博热搜话题生成播客,展现出AI对热点事件的敏锐洞察和态度表达。例如,针对“亚朵酒店致歉”事件,AI不仅分析了官方回应的不足,还指出了管理环节的漏洞,展现出类似“实时热点讲解员”的能力。此外,模型还能处理超长文本,如互联网女皇的340页AI报告,将其分为多个板块并通过双人对话深入浅出地讲解关键信息。
豆包·播客模型的背后是字节跳动语音技术团队的长期技术积累,基于端到端实时语音模型开发。与传统级联模式不同,该模型直接在语音模态上进行理解和推理,极大提升了语音对话的效率和质量。通过多模态数据训练和RL算法优化,模型在情感承接、声音控制、智商与表现力平衡、交互流畅度等方面实现了突破。例如,模型能够根据用户情绪动态调整回应语气,展现出高情商对话能力。
为了营造逼真的双人对谈效果,团队对大量播客内容进行了细致分析,并在数据生产和模型微调上进行了精细打磨。此外,豆包·声音复刻模型也进行了升级,不仅能复刻音色,还能根据上下文动态调整情绪,甚至实现原本发音人无法完成的功能,如唱歌、唱Rap等。
豆包·播客模型的推出,不仅为AI语音领域增添了新玩法,还进一步降低了音频创作的门槛,使用户能够更高效、个性化地通过“听”获取信息。该模型即将在火山引擎Force大会中全量上线,更多播客玩法也将陆续推出。
原文和模型
【原文链接】 阅读原文 [ 2690字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★