本地训练,立等可取,30秒音频素材复刻霉霉讲中文音色基于Bert-VITS2V2.0.2

本地训练,立等可取,30秒音频素材复刻霉霉讲中文音色基于Bert-VITS2V2.0.2

💡 原文中文,约7100字,阅读约需17分钟。
📝

内容提要

本文介绍了使用Bert-VITS2V2.0.2版本对原神数据集进行本地训练的过程,包括数据集构建、切分、重采样和标注,解决过拟合问题以及模型推理。需要注意数据集质量和训练次数的平衡。

🎯

关键要点

  • 使用Bert-VITS2V2.0.2版本对原神数据集进行本地训练。
  • 需要构建数据集以克隆脱离原神角色的对象,数据集质量和多样性影响模型性能。
  • 音画分离操作提取音频,使用moviepy库完成。
  • 对原始音频进行分析,获取采样频率和信号强度。
  • 数据集切分以避免内存溢出,使用slicer2库将大文件切分为小份。
  • 切分后的音频文件长度需大于2秒,以保证音频质量。
  • 对切分后的音频进行重采样和生成标注文件,使用whisper进行转录。
  • 生成bert模型可读文件,完成数据预处理。
  • 配置训练参数,开始训练模型,注意保存间隔以便验证。
  • 训练步数需平衡,过多可能导致过拟合,过少可能导致欠拟合。
  • 最后进行模型推理,注意过拟合和欠拟合之间的平衡。
➡️

继续阅读