我做梦也没想到，华语乐坛竟以这种形式复兴了。。。_天天观天下

本文原创于微信公众号：差评作者：差评君

华语乐坛，难道要重生了？！

【资料图】

最近差评君我在刷B站视频的时候，突然发现出现在我推荐页上的老歌手们又多了起来。

这类视频大多是以唱歌为主，有周杰伦的，有孙燕姿的，林俊杰的，甚至还有丁真郭德纲什么的。

只不过在这些视频的标题里，都会带有一个“AI”标签。

这类视频不仅非常多，关键是它们的播放量都还不差。

AI邓丽君的一首《反方向的钟》，喜获50万+播放。

AI周杰伦的一首“日系新歌”《单相思》，也是获得了80万+的播放量。

而且曾经6年不发新专的杰伦，因为这个AI替身，在这一两个月里发的“新歌”的量，估摸着已经超过前十年发的量的总和了。。。

至于曾经的“冷门歌手孙燕姿”，更是靠着AI替身，以一首《下雨天》，荣获超83万的播放量。

而且，这个AI孙燕姿，各种各样的风格曲目都有，从流行到摇滚，就没有AI孙燕姿掌控不了的曲风。

哪曾想到，原本已经脱离歌坛很久的孙燕姿，到了2023年，自己居然靠着AI替身，再次火了一把。一下子从曾经那个“冷门歌手”，变成了“2023最火爆华语歌手”。

可能也是看着现在华语歌坛有点拉，就连相声界的郭老师，都来凑热闹了，直接来了一首《 a lot 》。

把相声的基本功，“说、学、逗、唱”中的“说唱”演绎的淋漓尽致。

匪帮说唱配上于谦和郭德纲老师的“匪帮梗”，整个视频立马就有了一种“德云社厂牌”的气质，还有网友在评论里戏称郭老师为“ GodGang ”。。。

整个形势，就好像要回到20几几年那会的华语乐坛大爆发时代。

如果说，现在的新四大天王，把华语乐坛整成了华语哥谭。

那这个 AI 替身，可是真的把华语乐坛曾经的一丝辉煌给重现了。

所以这类 AI 视频到底是个啥东西？为什么在这两个月的时间里突然就爆发了？

差评君我仔细研究了一下，最后得出结论，让AI华语乐坛出现爆发式生长的，离不开这么一个开源项目：

So-vits-svc。

So-vits-svc源于21年的另一个叫做Vits的开源项目。

Vits是一种语音合成方法。

简单来说，就是可以对人的声学特征进行模拟，然后就可以直接用文本生成你模拟好的语音。

这个Vits虽然开源的早，但它没火起来只有一个原因，就是对普通用户来说，太难用了。

由于是文本生成语音，首先就得对需要训练的语音进行文本标记，特别不巧的是，训练Vits的模型又需要大量的语料才能获得比较好的效果，这个数量大概在数千至上万条5-10秒左右的音频。

所以，Vits效果好是好，但愿意折腾它的普通用户也不多。

到了2022年，一位叫“Rcell”的B站用户在Vits的基础上，结合了soft-vc、VIsinger等一系列项目，So-vits-svc就此诞生。

和Vits不同的是，So-vits不能通过文本直接合成语音，而是需要一段原始音频，然后利用这个原始音频，拟合成你想要的人的音色。

不过So-vits在训练声学特征时，需要的训练数据也相对较少，最短十几分钟，就能训练出一个能用的模型了。

到了今年三月，这个So-vits的项目迭代到4.0版本，更加易用，效果更好，再加上很多UP自发整理的整合包，这才让B站的AI视频出现了大爆发的趋势。

那这个So-vits项目易用到了什么程度呢？

差评君这里给大家做一个演示。

咱们直接把差评君的嘴替，蛋不利多酱的配音拿来训练，首先这些音频要经过切片和预处理，方便训练。

一切准备完毕后，就可以开始训练需要的声学模型啦，直接点击文件里面的推理，整个训练过程就开始了

在训练完成后，就能得到这样的声学模型。

有了模型就可以对音频进行推理了，我们先准备一段咱们需要拟合的干音，在这里就是一段唱歌的声音。

然后按照提示输入数值，等待推理完成即可。

最后在/results里的.flac文件，就是咱们通过训练蛋蛋的模型拟合出来的声音了。

之后我还找到了一个叫d-id的网站，这是一个可以将输入文本或音频转化为嘴型动画的网站，直接把图片和音频上传，就能在短时间内生成符合音频信息的视频。

把音频和视频合成，制作就结束了，整个过程几乎涉及不到什么有难度的点。

给大家看看成品，虽然这个过程花费时间不多，但整体的唱歌效果也还行，除了这选的曲子有点一言难尽之外。。

其实使用别人的声音来唱歌也不是一件稀奇的事情。

B站的鬼畜视频大家应该都看过吧？

鬼畜视频和这类AI视频有个共同点，就是它们都是用别人的声音来调教音频从而达到唱歌的效果。

但是传统鬼畜的方式，制作过程繁杂，最后出来的效果也和个人调音技术有很大的关系。

而这类AI视频，制作流程不但简单，声音的拟合效果也只取决于你训练的模型的好坏。

那这一对比下来，别的先不说，鬼畜区以后不得被AI视频干爆啊？

在一些AI视频下面，甚至已经有些网友在评论区哭喊，调音鬼畜要被AI代替了。。。

但差评君在询问了B站小编后，发现其实现在很多人对AI类的视频并没有很大的担忧。

小编认为技术服务于创意，AI带来的生产力提升也是一件好事，单调的AI原词现在也就是图个新鲜劲，不会对鬼畜区造成长远的影响。

这类AI视频，虽然在声音的还原上，相比传统鬼畜有极大优势，但是在内容多样性上，却远远不如传统鬼畜的方式。

咱就以最近很火的鬼畜素材 “ 泰裤辣 ” 举例。

整段原视频不过几十秒，比较有梗的也就是这句“泰！裤！辣！”。

在传统鬼畜的制作流程中，只需要把音频截下来，然后对一些比较有梗的词语进行重组拼贴，再进行调音。

然后对上口型的画面，一个鬼畜视频就完成了。

但如果想要用AI来做视频的话，对这类素材，首先就是音频素材量不够，短短几十秒的音频素材，完全不足以支撑训练出声学特征。

其次就是无法还原“梗”，最有梗的这句“泰！裤！辣！”，AI拟声完全没办法保留素材的原味。

就算你能训练出声学模型，当你把声音拟合到这个干声上时，你所有的语气，唱调，歌词，都会变成和原始干声一样。

这就少了很多乐趣了。

我们再回过头来看看鬼畜区的大部分视频，很多鬼畜视频的素材也就是一小段比较有趣的对话，比如九转大肠，鸡汤来了还有华强买瓜。

这些短短几分钟的素材全都不足以支撑AI训练出声学模型，自然也就没人会拿这些素材去做AI鬼畜了。

能被拿来做AI训练的，一般都是拥有很多音频训练集的人物，比如一些主播、配音演员还有歌手。

那这些歌手和主播就能被替代嘛？

只能说，目前可能还很难，但未来，谁也说不准。

B站就有一位翻唱区的UP，自己把自己的声音练了一个AI模型出来。

在听了最终的效果之后，直呼被AI版的自己爆杀。

评论区的观众更是发出惊叹，本来以为AI最不能取代的就是艺术类了，结果，现在最可能被取代的，就是艺术类工作。。。

不过，差评君之所以说现在还比较难取代的原因，主要是因为，目前的AI还不能做到对声音的完全定制化。

比如歌手在唱歌的时候经常会有一些临时的歌词改编啊，转调啊等等，这些AI目前还无法做到。

而且AI视频还有一点致命的缺点，你想要用AI唱歌，你首先得拥有这首歌的干音。。。

这个干音要么你自己唱，要么有歌手自己放出来，要么靠自己慢慢去调音，但这么一来，这些歌不还是人唱的嘛。。。

另外，AI工具潜藏着的使用安全问题，可能也会在日后让人们限制它的使用范围，由于这类AI工具简单易用，这也就意味着它降低了某些人利用这些软件做坏事的门槛。

在软件的命令行界面，从作者为了规范责任，写了这么一大串使用细则来看就知道，他们是真的怕！

你想想看，只要获取了你数十分钟的音频录音，我就能通过这个软件来模拟出你说话的声音。

那么通过这种方式来进行电信诈骗的话，可信度就提升了很多，毕竟再怎么防，也很难会想到自己的身边熟人的声音，居然是用AI合成的。

不过工具毕竟只是工具，有人拿它来电信诈骗，也有人会拿它来纪念亲人。

而且这类的视频也已经不少了，许多UP自己通过AI技术把已故艺术家们“复活”，比如这个使用AI技术让相声大师马三立来讲新相声的视频。

在评论区里有不少人听着听着，就流泪了。

感慨科技就应该在这个方向上使用。

还有UP，因为想念自己已故的奶奶，于是通过这种方式“复活”了她。

和自己的奶奶进行了一个隔空对话。

在AI邓丽君的唱歌视频下面，也有很多人对这种数字生命表达了感慨。

从嘲笑，到理解到爱上，最后成为数字生命。

这种种例子，不免让人感慨，技术不同的使用方式，带给人的是不同的体验。

随着AI技术的发展，我们可以大胆畅想，在不远的将来，或许我们也能拥有这样的数字生命，把已故的亲人保留下来，哪怕只是和他对上几句话，那也足够慰藉了。

图片、资料来源：

bilibili

Github