改进特征的语音分割和词库学习再探
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种自我监督的方法,将未标记的语音分割成类似词的段落。通过两阶段的动态规划方法,进行零资源分割,无需学习明确的词汇表。使用 HuBERT 替换特征,并通过聚类获得词汇表。该方法在 ZeroSpeech 基准测试中达到了最先进的性能。
🎯
关键要点
- 本文介绍了一种自我监督的方法,将未标记的语音分割成类似词的段落。
- 采用两阶段的动态规划方法进行零资源分割,无需学习明确的词汇表。
- 第一阶段使用 HuBERT 替换对比预测编码特征进行声学单元发现。
- 第二阶段通过平均 HuBERT 特征获得每个段落的声学词嵌入。
- 使用 K-means 对声学词嵌入进行聚类以获得词汇表。
- 该方法在 ZeroSpeech 基准测试中达到了最先进的性能,具有良好的覆盖率。
➡️