重磅更新!PaddleSpeech r1.5.0 整体适配飞桨框架3.0,新增大模型音频编码器DAC组件
💡
原文中文,约4300字,阅读约需11分钟。
📝
内容提要
PaddleSpeech是基于飞桨的开源语音项目,最新发布的1.5.0版本适配飞桨3.0,新增DAC模型支持和AudioTools模块,优化了音频处理功能和损失函数,提高了模型的准确性和易用性。
🎯
关键要点
- PaddleSpeech是基于飞桨的开源语音项目,最新发布的1.5.0版本适配飞桨3.0。
- 新增DAC模型支持和AudioTools模块,优化了音频处理功能和损失函数。
- PaddleSpeech提供语音识别、语音合成、声音分类和说话人识别等解决方案。
- DAC模型用于生成音频token,支持DAC模型训练及推理的AudioTools模块。
- 集成了音频处理工具AudioTools,提供音频加载、数据读取、重采样和短时傅里叶变换等功能。
- 新增的损失函数包括MultiScaleSTFTLoss、GANLoss和SISDRLoss。
- 完成了从Paddle 2.5到3.0的版本适配,确保模型的正确性和性能。
- 新支持的PIR模型可在对应的example下获取,提供了使用FastSpeech2 + HifiGan的推理步骤。
- 新版本优化了推理脚本,支持通过参数控制不同的am/voc模型。
- 感谢开源社区贡献者的支持,PaddleSpeech将继续发展和优化。
➡️