首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法

首次引入大模型!Bert-vits2-Extra中文特化版40秒素材复刻巫师3叶奈法

💡 原文中文,约5300字,阅读约需13分钟。
📝

内容提要

Bert-vits2项目更新了中文特化分支,引入了大模型,解决了发音问题,提升了情感表达。作者使用了Erlangshen-MegatronBert-1.3B大模型。

🎯

关键要点

  • Bert-vits2项目更新了中文特化分支,针对中文音色进行了优化。
  • 引入了Erlangshen-MegatronBert-1.3B大模型,解决了发音问题,提升了情感表达。
  • 新版本可以更好地替代之前的V1.0.1纯中文版本。
  • 用户需要克隆项目并下载新的纯中文底模和大模型的预训练模型。
  • Erlangshen-MegatronBert是一个具有39亿参数的中文BERT模型,适用于多种自然语言理解任务。
  • clap模型回归,负责情感风格的引导。
  • 用户需对音频素材进行预处理,包括切分和转写。
  • 训练和推理过程需要较高的显存,官方建议至少8G显存。
  • 提供了整合包的下载链接。
➡️

继续阅读