💡
原文中文,约9700字,阅读约需23分钟。
📝
内容提要
亚马逊云科技提供了云原生的TTS服务Amazon Polly,使用深度学习技术合成自然的人类语音。本文介绍了一个基于开源项目构建的解决方案,使用So-Vits-SVC和Bark进行自定义人声生成。
🎯
关键要点
- 亚马逊云科技提供云原生的TTS服务Amazon Polly,使用深度学习技术合成自然人类语音。
- 本文介绍基于开源项目的解决方案,使用So-Vits-SVC和Bark进行自定义人声生成。
- So-Vits-SVC支持自定义音色模型的训练和音色替换,TTS部分可选择Amazon Polly或Bark。
- 构建测试环境需要创建GPU的EC2实例,部署代码并安装环境依赖。
- 训练和推理过程需要使用GPU,建议使用Amazon EC2 G4dn.2xlarge机型。
- 准备目标人物的音频素材,建议提供120分钟以上的人声素材。
- 使用UVR工具进行人声和背景声的分离处理,推荐使用Demucs模型。
- 配置文件定义训练相关参数,需要根据声音数据集目录名修改配置。
- 训练过程生成的模型文件可用于推理,建议选择5000 epochs以上的模型。
- 通过Amazon Polly或开源项目Bark生成语音文件,支持多种语音生成类型。
- So-Vits-SVC项目提供webUI方便测试,支持自定义人声替换。
- 本文提供文生音场景定制化人声解决方案的参考实现,支持多种TTS实现选择。
➡️