谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

谷歌AI播客刚火,Meta就开源了平替,效果一言难尽

 

文章摘要


【关 键 词】 AI播客谷歌NotebookLMMeta开源文本转语音技术竞争

谷歌和Meta两大科技巨头近日在AI播客领域动作频频,引发业界关注。上个月,谷歌宣布对其AI笔记应用NotebookLM进行重大更新,新增了生成YouTube视频和音频文件摘要、创建可共享AI生成音频讨论等功能,进一步扩大了NotebookLM的应用场景。

本月初,AI领域知名人士Karpathy使用NotebookLM,仅用2小时就创建了一个10集的播客系列”历史谜团”,他将维基百科上的相关条目链接起来,利用NotebookLM生成播客视频和博客/剧集描述。

紧接着,Meta推出了NotebookLM的开源替代品NotebookLlama,使用Llama模型处理大部分任务。NotebookLlama的运行流程包括:从文件创建转录文本,添加戏剧化和中断,然后将转录文本输入到开放的文本到语音模型。

不过,NotebookLlama的效果还有待提升。据外媒Techcrunch报道,其听起来有明显机器人口音,有时会在奇怪时刻”自言自语”。Meta研究人员表示,使用更强大的模型可以提高质量。他们在GitHub页面上指出,文本到语音模型限制了声音的自然程度。

尽管如此,一些网友认为,NotebookLlama的开源代码让用户可以自定义尝试不同的提示方法等,未来有望变得更好。有人直言,现在是时候让谷歌加快步伐,Meta已经紧随其后。

Meta发布的教程显示,用户可以基于PDF文件构建播客。整个流程包括:预处理PDF、编写播客转录文本、优化内容添加戏剧性、文本到语音生成播客。需要注意的是,不同步骤需要使用不同大小的Llama模型,并在最后切换transformer版本。

项目未来改进的方向包括:纳入更好的TTS模型、更好的提示、支持提取网站、音频文件、YouTube链接等。要顺畅运行该项目,需要有GPU服务器或使用Llama模型的API提供商。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1570字 | 7分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明

相关文章

暂无评论

暂无评论...