使用随机变分深层核学习的并行和有限数据语音转换

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种使用深度卷积神经网络作为结构变分近似的推理网络的无监督模型ConvDMM,它使用非线性发射和转移函数模型的高斯状态空间模型。ConvDMM在大规模语音数据集上进行训练,产生的特征在线性电话分类和在WSJ数据集上的识别方面显着优于多个自我监督的特征提取方法,并且可以与其他自我监督的方法相辅相成,进一步提高了结果。在少量标记训练示例的极低资源之下,ConvDMM功能使得学习更好的电话识别器比任何其他功能。

🎯

关键要点

  • 提出了一种无监督模型ConvDMM,使用深度卷积神经网络作为推理网络。
  • ConvDMM基于非线性发射和转移函数模型的高斯状态空间模型。
  • 在大规模语音数据集上训练后,ConvDMM的特征在电话分类和WSJ数据集识别中表现优于多个自我监督特征提取方法。
  • ConvDMM可以与其他自我监督方法(如Wav2Vec和PASE)结合,进一步提高结果。
  • 在极低资源条件下,ConvDMM能够学习出比其他功能更好的电话识别器。
➡️

继续阅读