尝试了全网流行的语音AI，我几乎分不清谁是真人。。

2024-06-11

咳咳，在开始讲话之前，先向朋友们宣布一件事：

这种自然的语气，隐约还能听到一些换气的声音，是否已有差友即将上钩。

但是不要真的认为世超会暴露真声。其实这个音频是我用的。 AI 制作出来的，从打开网站到制作整个音频，都是共用的。没两分钟。

也许已经有朋友猜到世超用的是什么？ AI 这个工具，就是最近刚火出圈的那个，ChatTTS 。

刚刚开源不久，它的 GitHub 有一万多颗标星，而且还在继续飙升，就在世超写稿子的时候，亲眼看见它有所突破 2 万大关。。。。

网络上的热度也很高，光是 b 站立，随便搜索一下 ChatTTS ，可以弹出很多视频，不是教大家怎么安装，而是夸它有多真实。

甚至热度也传到了海外。

其实像 ChatTTS 这类文本转换为语音（ Text to Speech ）市场上有很多工具，每个家庭都做。 AI 使用的公司，基本上都有文字转语音的功能。

但是与它们不同的是， ChatTTS 最重要的是，最自然地恢复人声。

它的网页版本参数调节按钮，其中一半以上是为了让音频产生，更像是我们的真实演讲。

例如，精调文本按钮打开后，最终产生的音频会自动添加一些音频。口语连词，或是通风，笑声等等，信噪比也是为了恢复说话时的背景音。

世超随意输掉了段子 ChatTTS ，不要动其默认设置，产生的效果就是下面这个样子。

乍一看，我以为是办公室里一个同事从火锅里回来的吐槽。看导出的文字，这是在最后一句中间和最后自动加了两个出风口。

但是需要多听几次，还是可以在里面找到一些。 AI 味道。

假如产生的效果一般，我们也可以自己手动设置，放在输入文本中。 [ uv _ break ] 或者 [ laugh ] ，可以直接控制气口和笑声。

或者上面那句话，世超直接从末尾加上一个。 [ laugh ] ，整个句子会更加自然一些，最后的笑声，还可以舔出一点无奈的味道。

单靠这句话，我们还是看不出来。 ChatTTS 力量，下一点难度，扔两个绕口令给它。

假如给我们没有练习过的人来，也许要胡说八道几次，没想到。 ChatTTS ，模仿这个挺有一手的。

说到后面，这是直接一口气说完的，和我们快忘词的语调相比，不能说很像吧，至少也有七八分。

即使是为了让最后一句话 " 看看我说的还行吧 " 更加自然，它还自己手动添加了一个词儿。（那个）。

除会说中文外， ChatTTS 还可以整整地说几句英语。

肖申克的世超输句经典台词 " Hope is a good thing and maybe the best of things.And no good thing ever dies. " 进去，它可以顺利地产生声音。

关于效果嘛，世超认为，没有说中文自然。。。

当然，作为我们这里土生土长的地方。 AI ，说中文比说英文自然是情有可原的。

然而令世超惊讶的是，尽管英语一般，学习 ABC 中英夹杂， ChatTTS 真的有点天赋。

世超随意在台词中加入了一些网络上非常流行的英文梗，它直接模仿了里面的精髓。

不仅可以准确切换中英文，还可以像样呼吸什么的，还可以补充所有应该补充的单词。如果你坚持挑剔，最后一句话有点卡，但是当我们平时说话的时候，谁没有秃顶。

试试看这里，世超已经有点被感动了。 ChatTTS 给人留下深刻印象。。但是，就在我们准备进一步探索的时候，连续几次给我们带来大翻车。。

例如，我想尝试一下不精调的文本，看看。 ChatTTS 会产生怎样的音频，结果倒好，它直接罢工，输入一大段，它只读第一个单词。

这种效果已经尝试了好几次。。

（因为输出问题，iOS 该系统可能无法打开该音频。)

如果整个文字中有阿拉伯数字， ChatTTS 而且无法识别，必须手动切换到中文数字。

更离谱的是，只要字数增加，它就会开始浑水摸鱼，吞吞吐吐地只从长文中读出来，有时甚至可以把它们读出来。 GPU 给予干停机。

就像世超想要的那样 ChatTTS 帮助朋友们阅读本文的开头，它已经撑不住了。

这个都不算什么， ChatTTS 最大的缺点之一就是我们不能提前知道选择了什么音质，只能在 " 音频种籽 " 里输入数字盲选，或是掷骰子抽卡。

合上就是看运气呗。。

但是关于这些 " BUG " ，研究小组也有他们的说辞。总而言之，为了避免 ChatTTS 被有心人利用，他们没有释放出最佳模型。

根据他们的说法，目前开源和平台上使用的，都是使用的，4 万只小时未经监管微调的数据训练模型。（ SFT ）。

并且为了避免 AI 诈骗，他们还在这些训练数据中加入了少量的高频噪声，数据也使用了低音质的音频。 MP3 格式。

在团队手中，实际上还有一个更大的杯子，性能更好的模型，使用10 万小时数据。

ChatTTS 真正的力量应该在官方视频中显示。就像我们上面展示的那些例子，它们可以做得更好。比如中英文的句子，视频的例子比我们尝试的流畅很多，整个声音的清晰度也比世超在线生成的要强。

根据想法，它还可以接入语言大模型，可以直接和直接。 AI 进行零距离交谈。

即使只有几分钟的音频，它也可以直接将乔布斯、泰勒 · 复制了斯威夫特的声音。

后来进化进化，结合 ChatGPT 和对口型的 AI ，使它帮忙直播卖货估计没有人能看出来。

好处当然是一方面，但是世超想说的是，说到底这个 AI 或者模仿人说话，如果被有心人使用，后果不会有任何好处可以抵消。

和去年一样，发生了几起关于它的事情。 AI 诈骗案件，被骗数百万人。而且现在， AI 声音越来越真实，这意味着欺诈的门槛越来越低。

还有版权风险，可以算是这种音频。 AI 一堵墙。不久前，寡姐还因声音版权问题，公开撕裂。 OpenAI ，以 OpenAI 关于音质的下架结束。

即使在今年早些时候，美国田纳西州也制定了一项法律，不允许使用 AI 效仿人声。

总之，在音频 AI 这个地方，还有许多洞可以补上。。

但是说实话，世超还真希望这个模仿者说话。 AI 能够尽快落地的，要能够收到微信官方账号就更好了。

毕竟这 " 听一听 " 机械音在功能上，听起来真的很不舒服。。

发文：松鼠

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

高考后不要忙着“撒欢”！记住这些“锦囊”！

舱门关闭后，两名外国乘客表示亲戚生病，要求下飞机，导致航班延误。深圳航空回应

电子商务平台纷纷推出“自动跟价”，迫使亿万商家焦虑。

“政府收储存房”落地21天：钱从哪里来，进展如何？

突然暴跌？“宁王”紧急回应

项目推荐

康小虎百岁计划・健康大使招募计划

毛加健康

康老板 · 氧疗堂