自我监督的口语语言表示在语音语言分离中的应用

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

在混合语言环境中,使用隐性框架的语音语言编组(LD)作为预处理系统是必要的。通过三种不同的框架实现了LD的方法,包括基于固定分割、基于变化点分割和E2E。使用微软CS数据集时,使用E2E框架的隐性LD性能下降至60.4%,主要是由于辅助语言的单语片段持续时间分布差异。为解决这个问题,提出了一种自监督的隐性语言表示方法,相对于x-vector表示,该方法实现了约63.9%的改进,并在E2E框架下取得了21.8的JER。

🎯

关键要点

  • 在混合语言环境中,使用隐性框架的语音语言编组(LD)作为预处理系统是必要的。
  • 提出了三种实现LD的方法,包括基于固定分割、基于变化点分割和E2E框架。
  • 使用微软CS数据集时,E2E框架的隐性LD性能下降至60.4%,主要由于辅助语言的单语片段持续时间分布差异。
  • 为了解决性能下降的问题,提出了一种自监督的隐性语言表示方法。
  • 该自监督方法相对于x-vector表示实现了约63.9%的改进,并在E2E框架下取得了21.8的JER。
➡️

继续阅读