尝试了全网流行的语音AI,我几乎分不清谁是真人。。

2024-06-11

咳咳,在开始讲话之前,先向朋友们宣布一件事:


这种自然的语气,隐约还能听到一些换气的声音,是否已有差友即将上钩。


但是不要真的认为世超会暴露真声。其实这个音频是我用的。 AI 制作出来的,从打开网站到制作整个音频,都是共用的。没两分钟


也许已经有朋友猜到世超用的是什么? AI 这个工具,就是最近刚火出圈的那个,ChatTTS


刚刚开源不久,它的 GitHub 有一万多颗标星,而且还在继续飙升,就在世超写稿子的时候,亲眼看见它有所突破 2 万大关。。。。


网络上的热度也很高,光是 b 站立,随便搜索一下 ChatTTS ,可以弹出很多视频,不是教大家怎么安装,而是夸它有多真实。


甚至热度也传到了海外。


其实像 ChatTTS 这类文本转换为语音( Text to Speech )市场上有很多工具,每个家庭都做。 AI 使用的公司,基本上都有文字转语音的功能。


但是与它们不同的是, ChatTTS 最重要的是,最自然地恢复人声


它的网页版本参数调节按钮,其中一半以上是为了让音频产生,更像是我们的真实演讲。


例如,精调文本按钮打开后,最终产生的音频会自动添加一些音频。口语连词,或是通风,笑声等等,信噪比也是为了恢复说话时的背景音。


世超随意输掉了段子 ChatTTS ,不要动其默认设置,产生的效果就是下面这个样子。


乍一看,我以为是办公室里一个同事从火锅里回来的吐槽。看导出的文字,这是在最后一句中间和最后自动加了两个出风口。


但是需要多听几次,还是可以在里面找到一些。 AI 味道。


假如产生的效果一般,我们也可以自己手动设置,放在输入文本中。 [ uv _ break ] 或者 [ laugh ] ,可以直接控制气口和笑声。


或者上面那句话,世超直接从末尾加上一个。 [ laugh ] ,整个句子会更加自然一些,最后的笑声,还可以舔出一点无奈的味道。


单靠这句话,我们还是看不出来。 ChatTTS 力量,下一点难度,扔两个绕口令给它。


假如给我们没有练习过的人来,也许要胡说八道几次,没想到。 ChatTTS ,模仿这个挺有一手的。


说到后面,这是直接一口气说完的,和我们快忘词的语调相比,不能说很像吧,至少也有七八分。


即使是为了让最后一句话 " 看看我说的还行吧 " 更加自然,它还自己手动添加了一个词儿。( 那个 )。


除会说中文外, ChatTTS 还可以整整地说几句英语。


肖申克的世超输句经典台词 " Hope is a good thing and maybe the best of things.And no good thing ever dies. " 进去,它可以顺利地产生声音。


关于效果嘛,世超认为,没有说中文自然。。。


当然,作为我们这里土生土长的地方。 AI ,说中文比说英文自然是情有可原的。


然而令世超惊讶的是,尽管英语一般,学习 ABC 中英夹杂, ChatTTS 真的有点天赋。


世超随意在台词中加入了一些网络上非常流行的英文梗,它直接模仿了里面的精髓。


不仅可以准确切换中英文,还可以像样呼吸什么的,还可以补充所有应该补充的单词。如果你坚持挑剔,最后一句话有点卡,但是当我们平时说话的时候,谁没有秃顶。


试试看这里,世超已经有点被感动了。 ChatTTS 给人留下深刻印象。。但是,就在我们准备进一步探索的时候,连续几次给我们带来大翻车。


例如,我想尝试一下不精调的文本,看看。 ChatTTS 会产生怎样的音频,结果倒好,它直接罢工,输入一大段,它只读第一个单词。


这种效果已经尝试了好几次。。


( 因为输出问题,iOS 该系统可能无法打开该音频。)


如果整个文字中有阿拉伯数字, ChatTTS 而且无法识别,必须手动切换到中文数字。


更离谱的是,只要字数增加,它就会开始浑水摸鱼,吞吞吐吐地只从长文中读出来,有时甚至可以把它们读出来。 GPU 给予干停机。


就像世超想要的那样 ChatTTS 帮助朋友们阅读本文的开头,它已经撑不住了。


这个都不算什么, ChatTTS 最大的缺点之一就是我们不能提前知道选择了什么音质,只能在 " 音频种籽 " 里输入数字盲选,或是掷骰子抽卡


合上就是看运气呗。。


但是关于这些 " BUG " ,研究小组也有他们的说辞。总而言之,为了避免 ChatTTS 被有心人利用,他们没有释放出最佳模型。


根据他们的说法,目前开源和平台上使用的,都是使用的,4 万只小时未经监管微调的数据训练模型。( SFT )。


并且为了避免 AI 诈骗,他们还在这些训练数据中加入了少量的高频噪声,数据也使用了低音质的音频。 MP3 格式。


在团队手中,实际上还有一个更大的杯子,性能更好的模型,使用10 万小时数据


ChatTTS 真正的力量应该在官方视频中显示。就像我们上面展示的那些例子,它们可以做得更好。比如中英文的句子,视频的例子比我们尝试的流畅很多,整个声音的清晰度也比世超在线生成的要强。


根据想法,它还可以接入语言大模型,可以直接和直接。 AI 进行零距离交谈。


即使只有几分钟的音频,它也可以直接将乔布斯、泰勒 · 复制了斯威夫特的声音。


后来进化进化,结合 ChatGPT 和对口型的 AI ,使它帮忙直播卖货估计没有人能看出来。


好处当然是一方面,但是世超想说的是,说到底这个 AI 或者模仿人说话,如果被有心人使用,后果不会有任何好处可以抵消。


和去年一样,发生了几起关于它的事情。 AI 诈骗案件,被骗数百万人。而且现在, AI 声音越来越真实,这意味着欺诈的门槛越来越低。


还有版权风险,可以算是这种音频。 AI 一堵墙。不久前,寡姐还因声音版权问题,公开撕裂。 OpenAI ,以 OpenAI 关于音质的下架结束。


即使在今年早些时候,美国田纳西州也制定了一项法律,不允许使用 AI 效仿人声。


总之,在音频 AI 这个地方,还有许多洞可以补上。。


但是说实话,世超还真希望这个模仿者说话。 AI 能够尽快落地的,要能够收到微信官方账号就更好了。


毕竟这 " 听一听 " 机械音在功能上,听起来真的很不舒服。。


发文:松鼠


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com