谷歌AI播客刚刚火起来，Meta开源平替，效果一言难尽。

2024-10-29

随着谷歌和 Meta 基于大语言模型相继推出。 AI 播客功能，将极大地丰富人类用户和用户 AI 智能体互动的感觉。

上个月，谷歌宣布对旗下公司进行宣布。 AI 笔记应用 NotebookLM 通过一系列的更新，用户可以生成 YouTube 视频和音频文件的摘要，甚至可以创建共享的摘要 AI 生成音频讨论。加上之前支持的谷歌文档，PDF、文字文件，谷歌ppt和网页，NotebookLM 进一步扩大了用例和覆盖范围。

本月初，AI 大牛 Karpathy 发推说自己只用了两个小时就创造了一个 10 收藏系列博客 —— 历史谜团（Histories of Mysteries），其中就使用 NotebookLM 把每一个主题的维基百科内容联系起来，并生成播客视频；而且还使用 NotebookLM 编写博客 / 剧集描述。

就这两天，Meta 推出了 NotebookLM 开源平替版 ——NotebookLlama，它使用 Llama 模型处理大部分任务，包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct。

下图为 NotebookLlama 操作过程中，首先从文件(如新闻文章或博客文章)中建立转录文本，然后添加文本「更多戏剧性」并且中断，最后将转录文本馈入开放文本到语音模型。

据外媒 Techcrunch 报道，NotebookLlama 效果听起来不如谷歌。 NotebookLM 好吧，有明显的机器人口音，而且通常是在奇怪的时刻。「互相交谈」。然而，项目背后的东西 Meta 研究者表示，使用更强大的模型也可以提高质量。

Meta 研究人员在 NotebookLlama 的 GitHub 页面提到，「语音模型从文本到语音模型限制了声音的自然水平。」另外，另外一种编写播客的方法是让两个智能体讨论和编写有趣的主题。现在，Meta 只有一个模型被用来编写播客大纲。

正如下面所示，虽然播客内容还是有些粗糙，但是听起来已经很不错了。

对于 Meta 的 NotebookLlama，有些人直言不讳地说，这听起来很糟糕，要真正对比谷歌。 NotebookLM，语音转换效果必须接近人类水平。但也有人认为，虽然现在效果不好，但是随着所有代码的开源，客户可以定制尝试不同的提醒方式，相信以后会更好。

虽然效果还是差不多有意思，但也有网友表示：「现在是时候让步了 Google 加快步伐，Meta 后来又赶上来了，开源 NotebookLM。」

项目简介

根据 Meta 你可以根据发布的教程配方， PDF 建立文件播客。

项目地址：https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama

第一步：对 PDF 进行预处理。即使使用 Llama-3.2-1B-Instruct 对 PDF 进行预处理，并将其保存为.txt 文档；
步骤二：转录文本编写器。使用 Llama-3.1-70B-Instruct 从文本中编写模型的播客转录文本；
步骤三：再一次提升内容，增加戏剧性。使用 Llama-3.1-8B-Instruct 模型使转录文本更具创意；
步骤四：从文本到语音。使用 parer -tts/parer -tts-mini-v1(从文本到语音模型)和 bark/suno 生成对话播客。

然而，还有一些值得注意的地方：

第一，步骤 1 中间，需要提醒 1B 不要修改模型的文本或总结文本，并严格清除可能性。 PDF 多余的字符或垃圾字符在转录过程中遇到。

第二，对步骤你也可以使用它 Llama-3.1-8B-Instruct 模型，然后比较不同的模型效果。项目中使用的是 70B 由于它为检测示例提供了更具创意的播客记录，所以模型。

对于步骤您还可以使用其它模型进行扩展，更新的模型可能听起来更好。

要使这个项目顺利运行，你需要有 GPU 或者使用服务器 70B、8B 和 1B Llama 模型 API 如果你使用的是提供商。 70B 模型，然后需要一个总内存约为 140GB 的 GPU 来以 bfloat-16 推理的准确性。

退一步说，如果你的话 GPU 不太好，也可以用。 8B 整个模型跑通了 pipeline。

下一步是安装。开始前，请确保使用。 huggingface cli 登陆，然后启动 jupyter notebook ，确保能下载 Llama 模型。

然后运行代码：

Notebook 1：Notebook 1 用于处理 PDF，并使用新的 Feather light 该模型将其处理为.txt 文档。

Notebook 2：Notebook 2 将接收 Notebook 1 经过处理的导出，并使用 Llama-3.1-70B-Instruct 创造性的模型将其转化为播客脚本。假设你有丰富的 GPU 还可以使用资源 405B 检测模型！

Notebook 3：Notebook 3 使用以前的文本，并提示 Llama-3.1-8B-Instruct 增加了更多的戏剧性和对话中的中断。

Notebook 4：最终，Notebook 4 从上一个 notebook 得到结果并将其转化为播客。在这个项目中使用 parer -tts/parer - ttts -mini-v1 和 bark/suno 模型进行对话。

这里有一个问题：Parler 需要 4.43.3 或者更早的版本 transformer，但对于 pipeline 里的步骤 1 到需要最新版本，所以需要最后一个版本。 notebook 中间转换版本。

最后，项目列出了未来需要改进的地方：

语音模型：TTS 模型使语音听起来不太自然，将来可以列入更好的模型；
更好的提示；
支持提取网站，音频文件，YouTube 链接等。

参考链接：https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/?guccounter=1

本文来自微信公众号“机器之心”，编辑：杜伟、陈陈、36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

端到端大模型上车前夕，特斯拉、小鹏们还得理清智驾的“经济帐”

同程旅行“订后即焚”引发争议，消费陷阱频发。

加码，结合，剧院化，短剧跑道挤满了“跨界”玩家。

蜂巢能源叫停欧洲运营，300亿投资搁浅，当地企业也难以度过。

疯狂补习纯电的本田

项目推荐

康小虎 · 健康小屋

毛加健康

康老板 · 氧疗堂