人声AI语音合成模型VITS食用指南(附真实AI语音生成器)

AI语音合成模型VITS食用指南
先是AI绘画,再是大语言模型ChatGPT的横空出世,AI正逐渐与每个人息息相关。
GPT的使用已经无需多言,AI绘画也已经从只能画一些简笔画发展到了画出让人难分真假的图片,乃至制作流畅视频的程度。
而在前年才诞生的AI语音合成模型VITS,现在也发展迅速,让我们来看看AI在语音上又能给我们带来什么样的惊喜吧!
01

什么是VITS?

要想了解是VITS,首先要知道AI是怎么进行语音合成(TTS,Text-To-Speech)的。简单来说,语音合成分为三个步骤:首先,我们传入文本,经过分析提取出语言特征;然后,这个语言特征被传入一个声学模型,由声学模型分析出声学特征;最后,这个声学特征被发送给声码器,由声码器把相对应的声波发送出来。总而言之,就是用声学模型中提供的声音读出我们提供的文本。
人声AI语音合成模型VITS食用指南
[1] VITS原理图
那么最关键的步骤当然就是建立这样一个有着文本与声音映射关系的声学模型了。而VITS这个语音合成模型就基于深度学习帮助我们简化了建立声音模型这样一个复杂且低效的过程。用户只需要向它提供较少的训练语料,就能定制一个独特的声学模型,也就是我们常说的“声库”。
02

VITS能做什么?

如果仅仅是语音合成技术,其实早在2010年VOCALOID问世后,初音未来、洛天依等一大批虚拟歌手就已经能够按照人们的心意唱歌、朗读了。VITS相较于她们有哪些优势呢?

我们在介绍VITS的时候提到过,每个用户都可以向VITS模型“提供声音”,以较低的成本创造独属于自己的“声库”。相较于请声优花费大量的时间逐个音节录音、提取声源、人工创建声库,最后再人工调音的复杂流程,VITS训练声库的高度定制化、低成本等特质让语音合成创作更加的“亲民”。

于是,近期很多让人“眼前一黑”的作品冒了出来:

人声AI语音合成模型VITS食用指南
BV1Ac411E7iW
AI语音合成模型VITS食用指南
BV1EV4y1u7dZ
这段时间你看到的很多类似的作品,大多数都是利用VITS做出来的。我们不禁去想:既然我们在用AI训练出声库后就能用特定的声音读出我们给它的文字,那么能不能让AI用这个声音和我们对话呢?我们知道,ChatGPT恰巧能够用输出文字的方式和我们对话……
人声AI语音合成模型VITS食用指南
基于ChatGPT+VITS的在线语音对话应用
BV1Zs4y177fM
像上面这样的各式软件越来越多,VITS已然成为了创造赛博男/女友不可或缺的一环。
03

制作自己的声音模型!

看到这里,你可能对VITS产生了相当的兴趣,也想要某个人物的声音模型。如果在现存的所有整合包和公开模型里都没找到你想要的声音模型,那就自己动手制作一个吧! 在这里推荐两个AI语音合成相关的项目地址,你可以根据自己的需求选择~

(譬如:你可以把自己朗读个一二小时的声音拿去训练,最后得到一个会唱歌的自己)

So-vits-svc

https://github.com/svc-develop-team/so-vits-svc

So-vits-svc基于端到端架构的VITS和soft-vc,用户只需准备几十分钟到几个小时不等的语音或歌声数据,就能制作(训练)属于自己的 AI 声库,将一段语音或歌声转换为你想要的音色。

VITS-fast-fine-tuning

https://github.com/Plachtaa/VITS-fast-fine-tuning

基于预训练的VITS模型,用更快的速度训练属于自己的声学模型,具体方法在项目的手册中已经详细地说明,这里不再赘述。

以我个人在训练过程中的体验来说,你只需要准备一个足够好的数据集,剩下的都已经是前人帮你铺好的路了,只需要效仿即可。这里我使用《明日方舟》wiki上莫斯提马的中日语音总计十分钟的量,切片后一共有93份5-10秒的素材。
AI语音合成模型VITS食用指南
经过三个多小时的训练,这里我选择了只训练了5000步的版本,已经足够好了。如果想取得更好的效果,可以继续训练直到损失函数的五个参数收敛,这时就能得到最终版本了。

原曲:烟火人间月

推理干声:使用ACE歌声合成引擎得到
好的数据集能够事半功倍。一般情况下,如果使用各种方法去削除底噪、分离人声之类的,没法百分百得到纯净的干声,这样需要的训练时长就更长一些,可能需要二三十个小时,多达三万步,才能得到一个不错的模型。
04

注意事项

声音模型的训练对于显卡的要求较高,对于没有N卡或者心疼自己的显卡的(特别是当你听到笔记本将要起飞的声音时),可以使用谷歌的colab或者AutoDL等租一个显卡。
AI语音合成模型VITS食用指南
so-vits使用规约
在数据集的获取上,很多人选取一些具有公众影响力的人物,把他们视频中的声音裁剪下来训练,并用他们的声音在网上发布不当言论。如同之前的AI换脸,AI语音终究也陷入了难以管制的境地,稍有不慎就会误入歧途。So-Vits的原制作团队因此删除了GitHub上的项目,现在由其他团队接手。各位在学习和使用VITS时也需要时刻坚守自己的底线,把语音合成技术用在合法合规的地方。
参考文献:

[1] Kim, J., Kong, J., & Son, J. (2021). Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. ArXiv, abs/2106.06103.

推荐工具:

真实AI语音生成器Play.ht-文本转语音,太逼真了!(142 种语言和907种口音)

【微软AI配音神器】AI语音在线合成工具!文字转语音!赶紧保存!

赞(0) 打赏
未经允许不得转载:双小刚博客 » 人声AI语音合成模型VITS食用指南(附真实AI语音生成器)
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏