栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践(Python3.10)

栩栩如生,音色克隆,Bert-vits2文字转语音打造鬼畜视频实践(Python3.10)

💡 原文中文,约10100字,阅读约需25分钟。
📝

内容提要

该文介绍了使用Bert-vits2进行TTS的训练和推理过程,包括语音标注、文件转换和模型训练。作者还分享了使用Bert-vits2打造的鬼畜视频。

🎯

关键要点

  • Bert-vits2是当前最强大的TTS免费开源项目,结合了Bert大模型和Vits项目。
  • BERT通过无监督预训练学习通用语言表示,采用双向上下文信息建模。
  • BERT的模型结构基于Transformer,包含多个编码器层和多头自注意力机制。
  • BERT在自然语言处理领域产生了重大影响,成为许多研究和应用的基础。
  • 使用Bert-vits2项目克隆渣渣辉和刘青云的声音,制作鬼畜视频。
  • 需要提取原版音频素材并进行声音处理,包括降噪和切片。
  • 使用开源库whisper对切片语音进行标注,生成对应的文本和音标。
  • 将标注好的文件转换为bert模型可读文件,准备进行模型训练。
  • 修改config.json中的参数以适应本地显存,开始训练模型。
  • 通过tensorboard监控训练过程,确保模型收敛。
  • 使用训练好的模型生成语音,制作最终的鬼畜视频并上传至Youtube和B站。
➡️

继续阅读