百度大脑 ·

重磅更新！PaddleSpeech r1.5.0 整体适配飞桨框架3.0，新增大模型音频编码器DAC组件

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

PaddleSpeech是基于飞桨的开源语音项目，最新发布的1.5.0版本适配飞桨3.0，新增DAC模型支持和AudioTools模块，优化了音频处理功能和损失函数，提高了模型的准确性和易用性。

🎯

关键要点

PaddleSpeech是基于飞桨的开源语音项目，最新发布的1.5.0版本适配飞桨3.0。
新增DAC模型支持和AudioTools模块，优化了音频处理功能和损失函数。
PaddleSpeech提供语音识别、语音合成、声音分类和说话人识别等解决方案。
DAC模型用于生成音频token，支持DAC模型训练及推理的AudioTools模块。
集成了音频处理工具AudioTools，提供音频加载、数据读取、重采样和短时傅里叶变换等功能。
新增的损失函数包括MultiScaleSTFTLoss、GANLoss和SISDRLoss。
完成了从Paddle 2.5到3.0的版本适配，确保模型的正确性和性能。
新支持的PIR模型可在对应的example下获取，提供了使用FastSpeech2 + HifiGan的推理步骤。
新版本优化了推理脚本，支持通过参数控制不同的am/voc模型。
感谢开源社区贡献者的支持，PaddleSpeech将继续发展和优化。

🔎

延伸解读

DAC模型的重要性

DAC（Descript-Audio-Codec）模型在语音大模型中扮演着关键角色，它将连续的语音特征转换为离散的音频token。这一过程对于提高语音识别和合成的准确性至关重要，尤其是在处理复杂音频数据时。新版本的PaddleSpeech支持DAC模型的训练和推理，意味着开发者可以更高效地构建和优化语音应用。

AudioTools模块的实用性

新集成的AudioTools模块为开发者提供了多种音频处理功能，如音频加载、重采样和短时傅里叶变换等。这些功能的简化调用方式将大大提高开发效率，尤其是在需要频繁处理音频数据的项目中。开发者应关注如何利用这些工具来优化自己的语音处理流程。

损失函数的多样性

PaddleSpeech 1.5.0版本新增的损失函数（如MultiScaleSTFTLoss、GANLoss和SISDRLoss）为模型训练提供了更多选择。这些损失函数能够针对不同的任务和数据特性进行优化，开发者在选择损失函数时应考虑其对模型性能的影响，以实现更好的训练效果。

❓

延伸问答

PaddleSpeech r1.5.0版本有哪些主要更新？

PaddleSpeech r1.5.0版本适配了飞桨3.0，新增DAC模型支持和AudioTools模块，优化了音频处理功能和损失函数。

DAC模型在PaddleSpeech中有什么作用？

DAC模型用于生成音频token，支持DAC模型训练及推理的AudioTools模块。

AudioTools模块提供了哪些功能？

AudioTools模块提供音频加载、数据读取、重采样和短时傅里叶变换等功能。

新版本中新增了哪些损失函数？

新版本中新增了MultiScaleSTFTLoss、GANLoss和SISDRLoss三个损失函数。

PaddleSpeech如何支持PIR模型？

新版本支持的PIR模型可以在对应的example下获取，提供了使用FastSpeech2 + HifiGan的推理步骤。

PaddleSpeech r1.5.0版本的推理脚本有什么优化？

新版本优化了推理脚本，支持通过参数控制不同的am/voc模型，简化了使用流程。

🏷️