太逼真！豆包·播客模型来了：一句话生成「苏超联赛」播客，很懂13太保的梗

985 0 0

文章摘要

火山引擎发布了豆包·播客模型，这一AI工具能够生成高度拟真的双人对话播客，其语音表现力与真人几乎无异。用户只需在豆包PC版中点击“网页播客”按钮，即可快速生成带有字幕的音频内容，整个过程仅需5秒左右。该模型已在扣子空间上线，支持通过Prompt生成播客，具备易操作、实时性强、观点鲜明等特点。

在实时性方面，豆包·播客模型能够根据微博热搜话题生成播客，展现出AI对热点事件的敏锐洞察和态度表达。例如，针对“亚朵酒店致歉”事件，AI不仅分析了官方回应的不足，还指出了管理环节的漏洞，展现出类似“实时热点讲解员”的能力。此外，模型还能处理超长文本，如互联网女皇的340页AI报告，将其分为多个板块并通过双人对话深入浅出地讲解关键信息。

豆包·播客模型的背后是字节跳动语音技术团队的长期技术积累，基于端到端实时语音模型开发。与传统级联模式不同，该模型直接在语音模态上进行理解和推理，极大提升了语音对话的效率和质量。通过多模态数据训练和RL算法优化，模型在情感承接、声音控制、智商与表现力平衡、交互流畅度等方面实现了突破。例如，模型能够根据用户情绪动态调整回应语气，展现出高情商对话能力。

为了营造逼真的双人对谈效果，团队对大量播客内容进行了细致分析，并在数据生产和模型微调上进行了精细打磨。此外，豆包·声音复刻模型也进行了升级，不仅能复刻音色，还能根据上下文动态调整情绪，甚至实现原本发音人无法完成的功能，如唱歌、唱Rap等。

豆包·播客模型的推出，不仅为AI语音领域增添了新玩法，还进一步降低了音频创作的门槛，使用户能够更高效、个性化地通过“听”获取信息。该模型即将在火山引擎Force大会中全量上线，更多播客玩法也将陆续推出。