爆红ChatTTS突破开源语音天花板,3天内获得9kStar量。

2024-06-03

将来人与人之间的交流,是这样吗?



最近,一个名字叫做 ChatTTS 文字转语音项目爆火,引起了大家的极大关注。短短三天, GitHub 上面已经斩获了 9.2 k 的 Star 量。



项目地址:https://github.com/2noise//ChatTTS/tree/main


作者本人也是如此 x 上表示,ChatTTS 突破开源天花板。然而,目前开源只是底模,没有 SFT 监管微调。


本项目将文本转换为语音,效果如下:


ChatTTS 不仅可以说中文,还可以说英文。 hold 居住,还支持一些粗粒度控制,它允许你加入笑声,说话间断,还有语气词,可玩性很强。


它可以复制已经逝去的人的稀有声音。如果你想再次听到乔布斯的新闻发布会,你可以随时做到。听它模仿发霉的音色,无论是语气还是语气的变化,都很接近我,几乎听不到。 AI 味道。


中英混说也可以把握,这种半英半里的风格独闯留子圈,ChatTTS 已经达到了语言能力 next level。


上述音频来自 B 站:https://www.bilibili.com/videoBV1zn4y1o7iV/?share_source=copy_web&vd_source=983ec32a3036bb1cf2699e4fdbc2828


通过上述展示,我们不难发现,ChatTTS 能实现自然流畅的语音合成,同时支持多说话的人;还可以预测和控制粗粒度的节奏特征,包括笑声、间歇和插入词;ChatTTS 在节奏方面超越了大多数开源。 TTS 模型。


目前 ChatTTS 支持中文和英文。最大模型使用超过 10 练习一万小时的中英文数据。 HuggingFace 中开源的版本是 4 没有一万小时的训练 SFT 版本。


值得注意的是,上述所展示的音频都是围绕语音合成技术制作的,旨在展示科技成果,无意冒犯或侵犯他人权益。


项目一经发布,各界网友纷纷尝试,给出声音的确真假难辨。


还有人拿 GPT 生成文本,让 ChatTTS「读」走出来,语调与真人的差距特别小:


效果如此之好,自然是想上手试试。怎样才能使用? ChatTTS 如果你的嘴替换,可以参考下面的方法来操作。


在线体验地址:https://huggingface.co/spaces/Dzkaka/ChatTTS



ChatTTS 主要有两个功能,第一个是将文字转换为语音,第二个是与大语言模型进行实时语音对话。除了这些功能,你还可以「Audio Seed」调整数字指定演讲者的音色,或者随机摇骰子生成一个。但是很多测试人员表示,每次选择相同的参数,生成的音色可能并不固定。



2Noise 据说,现在支持音质复制,但是需要更多的信息。


在文本框中输入文本后,ChatTTS 会自动为你产生节奏和间断,还会加入一些,比如「随后」这样的语气词。如果您在输入时在文本中加入 [laugh] 和 [uv_break],可以手动操作 ChatTTS 有些是在说话间产生的「笑果」。


不过 ChatTTS 目前还无法处理较长的文本,有网友对有声书进行了挑战,发现初始版本无法生成超越。 30 秒的音频,需要手动修复。当遇到较长的文字时,ChatTTS 分词也会有问题。


本文来自微信微信官方账号“机器之心”(ID:编辑:陈萍,佳琪,36氪经授权发布,almosthuman2014)。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com