💡
原文中文,约10100字,阅读约需25分钟。
📝
内容提要
该文介绍了使用Bert-vits2进行TTS的训练和推理过程,包括语音标注、文件转换和模型训练。作者还分享了使用Bert-vits2打造的鬼畜视频。
🎯
关键要点
- Bert-vits2是当前最强大的TTS免费开源项目,结合了Bert大模型和Vits项目。
- BERT通过无监督预训练学习通用语言表示,采用双向上下文信息建模。
- BERT的模型结构基于Transformer,包含多个编码器层和多头自注意力机制。
- BERT在自然语言处理领域产生了重大影响,成为许多研究和应用的基础。
- 使用Bert-vits2项目克隆渣渣辉和刘青云的声音,制作鬼畜视频。
- 需要提取原版音频素材并进行声音处理,包括降噪和切片。
- 使用开源库whisper对切片语音进行标注,生成对应的文本和音标。
- 将标注好的文件转换为bert模型可读文件,准备进行模型训练。
- 修改config.json中的参数以适应本地显存,开始训练模型。
- 通过tensorboard监控训练过程,确保模型收敛。
- 使用训练好的模型生成语音,制作最终的鬼畜视频并上传至Youtube和B站。
➡️