改进特征的语音分割和词库学习再探
原文中文,约300字,阅读约需1分钟。发表于: 。我们重新审视了一种自我监督的方法,将未标记的语音分割成类似词的段落。我们从两阶段的惩罚持续时间的动态规划方法开始,进行零资源分割,而无需学习明确的词汇表。在第一阶段的声学单元发现阶段,我们用 HuBERT 替换对比预测编码特征。在第二阶段的词语分割之后,我们通过平均 HuBERT 特征获得每个段落的声学词嵌入。使用 K-means...
本文介绍了一种自我监督的方法,将未标记的语音分割成类似词的段落。通过两阶段的动态规划方法,进行零资源分割,无需学习明确的词汇表。使用 HuBERT 替换特征,并通过聚类获得词汇表。该方法在 ZeroSpeech 基准测试中达到了最先进的性能。