改进特征的语音分割和词库学习再探

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种自我监督的方法,将未标记的语音分割成类似词的段落。通过两阶段的动态规划方法,进行零资源分割,无需学习明确的词汇表。使用 HuBERT 替换特征,并通过聚类获得词汇表。该方法在 ZeroSpeech 基准测试中达到了最先进的性能。

🎯

关键要点

  • 本文介绍了一种自我监督的方法,将未标记的语音分割成类似词的段落。
  • 采用两阶段的动态规划方法进行零资源分割,无需学习明确的词汇表。
  • 第一阶段使用 HuBERT 替换对比预测编码特征进行声学单元发现。
  • 第二阶段通过平均 HuBERT 特征获得每个段落的声学词嵌入。
  • 使用 K-means 对声学词嵌入进行聚类以获得词汇表。
  • 该方法在 ZeroSpeech 基准测试中达到了最先进的性能,具有良好的覆盖率。
➡️

继续阅读