谷歌AI播客刚刚火起来,Meta开源平替,效果一言难尽。

2024-10-29

随着谷歌和 Meta 基于大语言模型相继推出。 AI 播客功能,将极大地丰富人类用户和用户 AI 智能体互动的感觉。



上个月,谷歌宣布对旗下公司进行宣布。 AI 笔记应用 NotebookLM 通过一系列的更新,用户可以生成 YouTube 视频和音频文件的摘要,甚至可以创建共享的摘要 AI 生成音频讨论。加上之前支持的谷歌文档,PDF、文字文件,谷歌ppt和网页,NotebookLM 进一步扩大了用例和覆盖范围。


本月初,AI 大牛 Karpathy 发推说自己只用了两个小时就创造了一个 10 收藏系列博客 —— 历史谜团(Histories of Mysteries),其中就使用 NotebookLM 把每一个主题的维基百科内容联系起来,并生成播客视频;而且还使用 NotebookLM 编写博客 / 剧集描述。



就这两天,Meta 推出了 NotebookLM 开源平替版 ——NotebookLlama,它使用 Llama 模型处理大部分任务,包括 Llama-3.2-1B-Instruct、Llama-3.1-70B-Instruct 和 Llama-3.1-8B-Instruct。


下图为 NotebookLlama 操作过程中,首先从文件(如新闻文章或博客文章)中建立转录文本,然后添加文本「更多戏剧性」并且中断,最后将转录文本馈入开放文本到语音模型。



据外媒 Techcrunch 报道,NotebookLlama 效果听起来不如谷歌。 NotebookLM 好吧,有明显的机器人口音,而且通常是在奇怪的时刻。「互相交谈」。然而,项目背后的东西 Meta 研究者表示,使用更强大的模型也可以提高质量。


Meta 研究人员在 NotebookLlama 的 GitHub 页面提到,「语音模型从文本到语音模型限制了声音的自然水平。」另外,另外一种编写播客的方法是让两个智能体讨论和编写有趣的主题。现在,Meta 只有一个模型被用来编写播客大纲。


正如下面所示,虽然播客内容还是有些粗糙,但是听起来已经很不错了。


对于 Meta 的 NotebookLlama,有些人直言不讳地说,这听起来很糟糕,要真正对比谷歌。 NotebookLM,语音转换效果必须接近人类水平。但也有人认为,虽然现在效果不好,但是随着所有代码的开源,客户可以定制尝试不同的提醒方式,相信以后会更好。



虽然效果还是差不多有意思,但也有网友表示:「现在是时候让步了 Google 加快步伐,Meta 后来又赶上来了,开源 NotebookLM。」



项目简介


根据 Meta 你可以根据发布的教程配方, PDF 建立文件播客。



项目地址:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama


  • 第一步:对 PDF 进行预处理。即使使用 Llama-3.2-1B-Instruct 对 PDF 进行预处理,并将其保存为.txt 文档;
  • 步骤二:转录文本编写器。使用 Llama-3.1-70B-Instruct 从文本中编写模型的播客转录文本;
  • 步骤三:再一次提升内容,增加戏剧性。使用 Llama-3.1-8B-Instruct 模型使转录文本更具创意;
  • 步骤四:从文本到语音。使用 parer -tts/parer -tts-mini-v1(从文本到语音模型)和 bark/suno 生成对话播客。

然而,还有一些值得注意的地方:


第一,步骤 1 中间,需要提醒 1B 不要修改模型的文本或总结文本,并严格清除可能性。 PDF 多余的字符或垃圾字符在转录过程中遇到。


第二,对步骤 你也可以使用它 Llama-3.1-8B-Instruct 模型,然后比较不同的模型效果。项目中使用的是 70B 由于它为检测示例提供了更具创意的播客记录,所以模型。


对于步骤 您还可以使用其它模型进行扩展,更新的模型可能听起来更好。


要使这个项目顺利运行,你需要有 GPU 或者使用服务器 70B、8B 和 1B Llama 模型 API 如果你使用的是提供商。 70B 模型,然后需要一个总内存约为 140GB 的 GPU 来以 bfloat-16 推理的准确性。


退一步说,如果你的话 GPU 不太好,也可以用。 8B 整个模型跑通了 pipeline。


下一步是安装。开始前,请确保使用。 huggingface cli 登陆,然后启动 jupyter notebook ,确保能下载 Llama 模型。


然后运行代码:



Notebook 1:Notebook 1 用于处理 PDF,并使用新的 Feather light 该模型将其处理为.txt 文档。


Notebook 2:Notebook 2 将接收 Notebook 1 经过处理的导出,并使用 Llama-3.1-70B-Instruct 创造性的模型将其转化为播客脚本。假设你有丰富的 GPU 还可以使用资源 405B 检测模型!


Notebook 3:Notebook 3 使用以前的文本,并提示 Llama-3.1-8B-Instruct 增加了更多的戏剧性和对话中的中断。


Notebook 4:最终,Notebook 4 从上一个 notebook 得到结果并将其转化为播客。在这个项目中使用 parer -tts/parer - ttts -mini-v1 和 bark/suno 模型进行对话。


这里有一个问题:Parler 需要 4.43.3 或者更早的版本 transformer,但对于 pipeline 里的步骤 1 到 需要最新版本,所以需要最后一个版本。 notebook 中间转换版本。


最后,项目列出了未来需要改进的地方:


  • 语音模型:TTS 模型使语音听起来不太自然,将来可以列入更好的模型;
  • 更好的提示;
  • 支持提取网站,音频文件,YouTube 链接等。

参考链接:https://techcrunch.com/2024/10/27/meta-releases-an-open-version-of-googles-podcast-generator/?guccounter=1


本文来自微信公众号“机器之心”,编辑:杜伟、陈陈、36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com