什么是VITS?
VITS能做什么?
我们在介绍VITS的时候提到过,每个用户都可以向VITS模型“提供声音”,以较低的成本创造独属于自己的“声库”。相较于请声优花费大量的时间逐个音节录音、提取声源、人工创建声库,最后再人工调音的复杂流程,VITS训练声库的高度定制化、低成本等特质让语音合成创作更加的“亲民”。
于是,近期很多让人“眼前一黑”的作品冒了出来:
制作自己的声音模型!
(譬如:你可以把自己朗读个一二小时的声音拿去训练,最后得到一个会唱歌的自己)
https://github.com/svc-develop-team/so-vits-svc
So-vits-svc基于端到端架构的VITS和soft-vc,用户只需准备几十分钟到几个小时不等的语音或歌声数据,就能制作(训练)属于自己的 AI 声库,将一段语音或歌声转换为你想要的音色。
https://github.com/Plachtaa/VITS-fast-fine-tuning
基于预训练的VITS模型,用更快的速度训练属于自己的声学模型,具体方法在项目的手册中已经详细地说明,这里不再赘述。
原曲:烟火人间月
注意事项
[1] Kim, J., Kong, J., & Son, J. (2021). Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. ArXiv, abs/2106.06103.
推荐工具: