爆红ChatTTS突破开源语音天花板，3天内获得9kStar量。

2024-06-03

将来人与人之间的交流，是这样吗？

最近，一个名字叫做 ChatTTS 文字转语音项目爆火，引起了大家的极大关注。短短三天， GitHub 上面已经斩获了 9.2 k 的 Star 量。

项目地址：https://github.com/2noise//ChatTTS/tree/main

作者本人也是如此 x 上表示，ChatTTS 突破开源天花板。然而，目前开源只是底模，没有 SFT 监管微调。

本项目将文本转换为语音，效果如下：

ChatTTS 不仅可以说中文，还可以说英文。 hold 居住，还支持一些粗粒度控制，它允许你加入笑声，说话间断，还有语气词，可玩性很强。

它可以复制已经逝去的人的稀有声音。如果你想再次听到乔布斯的新闻发布会，你可以随时做到。听它模仿发霉的音色，无论是语气还是语气的变化，都很接近我，几乎听不到。 AI 味道。

中英混说也可以把握，这种半英半里的风格独闯留子圈，ChatTTS 已经达到了语言能力 next level。

上述音频来自 B 站：https://www.bilibili.com/videoBV1zn4y1o7iV/?share_source=copy_web&vd_source=983ec32a3036bb1cf2699e4fdbc2828

通过上述展示，我们不难发现，ChatTTS 能实现自然流畅的语音合成，同时支持多说话的人；还可以预测和控制粗粒度的节奏特征，包括笑声、间歇和插入词；ChatTTS 在节奏方面超越了大多数开源。 TTS 模型。

目前 ChatTTS 支持中文和英文。最大模型使用超过 10 练习一万小时的中英文数据。 HuggingFace 中开源的版本是 4 没有一万小时的训练 SFT 版本。

值得注意的是，上述所展示的音频都是围绕语音合成技术制作的，旨在展示科技成果，无意冒犯或侵犯他人权益。

项目一经发布，各界网友纷纷尝试，给出声音的确真假难辨。

还有人拿 GPT 生成文本，让 ChatTTS「读」走出来，语调与真人的差距特别小：

效果如此之好，自然是想上手试试。怎样才能使用？ ChatTTS 如果你的嘴替换，可以参考下面的方法来操作。

在线体验地址：https://huggingface.co/spaces/Dzkaka/ChatTTS

ChatTTS 主要有两个功能，第一个是将文字转换为语音，第二个是与大语言模型进行实时语音对话。除了这些功能，你还可以「Audio Seed」调整数字指定演讲者的音色，或者随机摇骰子生成一个。但是很多测试人员表示，每次选择相同的参数，生成的音色可能并不固定。

2Noise 据说，现在支持音质复制，但是需要更多的信息。

在文本框中输入文本后，ChatTTS 会自动为你产生节奏和间断，还会加入一些，比如「随后」这样的语气词。如果您在输入时在文本中加入 [laugh] 和 [uv_break]，可以手动操作 ChatTTS 有些是在说话间产生的「笑果」。

不过 ChatTTS 目前还无法处理较长的文本，有网友对有声书进行了挑战，发现初始版本无法生成超越。 30 秒的音频，需要手动修复。当遇到较长的文字时，ChatTTS 分词也会有问题。

本文来自微信微信官方账号“机器之心”（ID:编辑：陈萍，佳琪，36氪经授权发布，almosthuman2014)。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com