【48812】试了爆火全网的语音AI我快分不清谁是真人了_电子学生证

但大伙可别真认为世超要露出真声，其实这段音频，是我用 AI 做出来的，从翻开网址到做好整段音频，统共用了都

。刚开源没几天，它的 GitHub 就有一万多颗标星，并且还在持续噌噌猛涨，就在世超在写稿的时分，亲眼看到它打破 2 万大关。。。

网上的热度也贼高，光是 b 站，随意一搜 ChatTTS ，就能弹出一大堆视频来，不是在教大伙怎样装置，便是在夸它有多传神。

其实像 ChatTTS 这类文本转语音（ Text to Speech ）的东西，市面上一抓一大把，各家做 AI 使用的企业，大多数都有文本转语音的功用。

，有一大半都是为了让生成的音频，更像我们真人说话。就比方，精调文本按钮翻开之后，最终生成的音频里，会主动加一些

世超随意输了段话给 ChatTTS ，没动它的默认设置，生成的作用的是下面这个姿态。

乍一听，还认为是办公室哪位搭档遛火锅回来的吐槽。看下输出的文本，它是在最终一句的中心和完毕，主动加了两个气口。

假如嫌生成的作用一般，我们也能够自个儿去手动设置，在输入文本里加 [ uv _ break ] 或许 [ laugh ] ，就能直接操控气口和笑声。

仍是上面那句话，世超直接在完毕加上个 [ laugh ] ，整句话都会更天然一点，完毕那个笑声，还能咂摸出一点无法的味儿。

光靠这一句话，咱还看不太出 ChatTTS 的实力，接下来上点难度，扔两段绕口令给它。

要是给我们没练过的人来，指不定得口胡几回，没想到 ChatTTS ，仿照这个挺有一手。

讲到后边，它是直接一口气说完的，跟咱快忘词儿的语调比较，不能说非常像吧，最少也有个七八分了。

乃至为了让最终那句 “ 你看我说的还行吧 ” 更天然点，它还自己手动加了个词儿（那个）。

世超随意在台词里加了一些网上很火的英文梗，它直接把里边的精华给仿照出来了。

不仅能精确切换中英文，口气啥的也都像模像样，并且该弥补的连词也都弥补了。硬要挑刺的话，便是最终那句有点卡壳，但平常咱说话，谁没有秃噜嘴的时分。

试到这儿，世超现已稍稍被 ChatTTS 给折服了。。。然鹅，就在咱预备再深度探究探究时，它

。就比方我想试试不精调文本，看看 ChatTTS 会生成怎样的音频，成果倒好，它直接停工，输入的一大段话，它只读榜首个字。

并且假如整段文字里有阿拉伯数字， ChatTTS 也辨认不了，得我们手动切换成中文数字。

更离谱的是，只需字数一多起来，它就开端趁火打劫，支支吾吾只从大段文字里挑着念，乃至有时分都能把它们的 GPU 给干宕机了。

像是世超想让 ChatTTS 帮差友们读下这篇文章的最初，它就现已撑不住了。。。

这都还不算啥， ChatTTS 有个最大的缺陷，便是我们不能事前知道挑选了啥音色，只能在 “ 音频种子 ” 里输入数字

不过关于这些 “ BUG ” ，研讨团队也有它们的说辞。一句话归纳便是，

数据练习出来的模型，还没通过监督微调（ SFT ）。并且为防止 AI 欺诈，他们还在这些练习数据里，加了少数的高频噪声，数据用的也都是音频质量不太高的 MP3 格局。

。ChatTTS 实在的实力，应该是官方视频里展现的那样。像我们上面展现的那几个比方，它都能做得更好，比方中英文搀杂的语句，视频的示例比咱试的要丝滑得多，并且整个人声的清晰度，也比世超在线生成的强。

乃至光是凭几分钟的音频，它能直接把乔布斯、泰勒 · 斯威夫特的声响给克隆出来。

估量都没人能看出来了。当然有优点是一方面，但世超想说的是，说到底这 AI 仍是仿照人说话的，要是被有心之人给利用了，带来的结果可不是一点优点就能抵消的。

像上一年，就发生了好几起关于 AI 欺诈的事例，上圈套好几百万的都有。而现在 AI 音频越来越传神，等于说欺诈的门槛是越来越低了。

还有版权危险，也算是这类音频 AI 的一堵墙。前段时间，寡姐还由于声响版权的问题，揭露撕了 OpenAI ，以 OpenAI 下架相关音色告终。

但说句心里话，世超还真挺期望这仿照人说话的 AI 能赶快落地的，要能接到大众号上就更好了。

卖海鲜年入10亿，80后海归冲击港股IPO，北斗星通、顺为、元璟等参投

打破日系油混神话这台最省油的美系车有线月各等级MPV销冠，宜商宜家且价格不贵

山东夏日高考挑选题已阅完，全体评卷作业将于6月20日完毕，6月25日发布成果

#父亲节#父亲节，带苑辰星来看麋鹿，他拿我当驴骑虽然是个坐骑，但仍是会很高兴，他喜爱作弄我，我也喜爱...

[上一篇] 万根顺：攻关语音识别技术

[下一篇] 亿田集成灶怎么语音唤醒