BriefGPT - AI 论文速递 ·

自我监督的口语语言表示在语音语言分离中的应用

💡 原文中文，约400字，阅读约需1分钟。

📝

内容提要

在混合语言环境中，使用隐性框架的语音语言编组（LD）作为预处理系统是必要的。通过三种不同的框架实现了LD的方法，包括基于固定分割、基于变化点分割和E2E。使用微软CS数据集时，使用E2E框架的隐性LD性能下降至60.4%，主要是由于辅助语言的单语片段持续时间分布差异。为解决这个问题，提出了一种自监督的隐性语言表示方法，相对于x-vector表示，该方法实现了约63.9%的改进，并在E2E框架下取得了21.8的JER。

🎯

关键要点

在混合语言环境中，使用隐性框架的语音语言编组（LD）作为预处理系统是必要的。
提出了三种实现LD的方法，包括基于固定分割、基于变化点分割和E2E框架。
使用微软CS数据集时，E2E框架的隐性LD性能下降至60.4%，主要由于辅助语言的单语片段持续时间分布差异。
为了解决性能下降的问题，提出了一种自监督的隐性语言表示方法。
该自监督方法相对于x-vector表示实现了约63.9%的改进，并在E2E框架下取得了21.8的JER。

🏷️

自我监督的口语语言表示在语音语言分离中的应用

内容提要

关键要点

标签

继续阅读