但大伙可别真认为世超要露出真声,其实这段音频,是我用 AI 做出来的,从翻开网址到做好整段音频,统共用了都
。刚开源没几天,它的 GitHub 就有一万多颗标星,并且还在持续噌噌猛涨,就在世超在写稿的时分,亲眼看到它打破 2 万大关。。。
网上的热度也贼高,光是 b 站,随意一搜 ChatTTS ,就能弹出一大堆视频来,不是在教大伙怎样装置,便是在夸它有多传神。
其实像 ChatTTS 这类文本转语音( Text to Speech )的东西,市面上一抓一大把,各家做 AI 使用的企业,大多数都有文本转语音的功用。
,有一大半都是为了让生成的音频,更像我们真人说话。就比方,精调文本按钮翻开之后,最终生成的音频里,会主动加一些
世超随意输了段话给 ChatTTS ,没动它的默认设置,生成的作用的是下面这个姿态。
乍一听,还认为是办公室哪位搭档遛火锅回来的吐槽。看下输出的文本,它是在最终一句的中心和完毕,主动加了两个气口。
假如嫌生成的作用一般,我们也能够自个儿去手动设置,在输入文本里加 [ uv _ break ] 或许 [ laugh ] ,就能直接操控气口和笑声。
仍是上面那句话,世超直接在完毕加上个 [ laugh ] ,整句话都会更天然一点,完毕那个笑声,还能咂摸出一点无法的味儿。
光靠这一句话,咱还看不太出 ChatTTS 的实力,接下来上点难度,扔两段绕口令给它。
要是给我们没练过的人来,指不定得口胡几回,没想到 ChatTTS ,仿照这个挺有一手。
讲到后边,它是直接一口气说完的,跟咱快忘词儿的语调比较,不能说非常像吧,最少也有个七八分了。
乃至为了让最终那句 “ 你看我说的还行吧 ” 更天然点,它还自己手动加了个词儿( 那个 )。
世超随意在台词里加了一些网上很火的英文梗,它直接把里边的精华给仿照出来了。
不仅能精确切换中英文,口气啥的也都像模像样,并且该弥补的连词也都弥补了。硬要挑刺的话,便是最终那句有点卡壳,但平常咱说话,谁没有秃噜嘴的时分。
试到这儿,世超现已稍稍被 ChatTTS 给折服了。。。然鹅,就在咱预备再深度探究探究时,它
。就比方我想试试不精调文本,看看 ChatTTS 会生成怎样的音频,成果倒好,它直接停工,输入的一大段话,它只读榜首个字。
并且假如整段文字里有阿拉伯数字, ChatTTS 也辨认不了,得我们手动切换成中文数字。
更离谱的是,只需字数一多起来,它就开端趁火打劫,支支吾吾只从大段文字里挑着念,乃至有时分都能把它们的 GPU 给干宕机了。
像是世超想让 ChatTTS 帮差友们读下这篇文章的最初,它就现已撑不住了。。。
这都还不算啥, ChatTTS 有个最大的缺陷,便是我们不能事前知道挑选了啥音色,只能在 “ 音频种子 ” 里输入数字
不过关于这些 “ BUG ” ,研讨团队也有它们的说辞。一句话归纳便是,
数据练习出来的模型,还没通过监督微调( SFT )。并且为防止 AI 欺诈,他们还在这些练习数据里,加了少数的高频噪声,数据用的也都是音频质量不太高的 MP3 格局。
。ChatTTS 实在的实力,应该是官方视频里展现的那样。像我们上面展现的那几个比方,它都能做得更好,比方中英文搀杂的语句,视频的示例比咱试的要丝滑得多,并且整个人声的清晰度,也比世超在线生成的强。
乃至光是凭几分钟的音频,它能直接把乔布斯、泰勒 · 斯威夫特的声响给克隆出来。
估量都没人能看出来了。当然有优点是一方面,但世超想说的是,说到底这 AI 仍是仿照人说话的,要是被有心之人给利用了,带来的结果可不是一点优点就能抵消的。
像上一年,就发生了好几起关于 AI 欺诈的事例,上圈套好几百万的都有。而现在 AI 音频越来越传神,等于说欺诈的门槛是越来越低了。
还有版权危险,也算是这类音频 AI 的一堵墙。前段时间,寡姐还由于声响版权的问题,揭露撕了 OpenAI ,以 OpenAI 下架相关音色告终。
但说句心里话,世超还真挺期望这仿照人说话的 AI 能赶快落地的,要能接到大众号上就更好了。
卖海鲜年入10亿,80后海归冲击港股IPO,北斗星通、顺为、元璟等参投
打破日系油混神话 这台最省油的美系车有线月各等级MPV销冠, 宜商宜家且价格不贵
山东夏日高考挑选题已阅完,全体评卷作业将于6月20日完毕,6月25日发布成果
#父亲节#父亲节,带苑辰星来看麋鹿,他拿我当驴骑虽然是个坐骑,但仍是会很高兴,他喜爱作弄我,我也喜爱...