MaskSR:面向全频段语音恢复的 Masked Language Model

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了MaskSR,一种能够恢复全频44.1 kHz语音的掩码语言模型。通过联合考虑噪声、混响、剪切和低带宽,MaskSR使用预训练的神经编解码器提取离散声学令牌,并通过高效的迭代采样重建目标语音令牌。实验证明,MaskSR在全频语音恢复任务和子任务上取得了竞争力的结果。

🎯

关键要点

  • MaskSR是一种掩码语言模型,旨在恢复全频44.1 kHz的语音。
  • 该模型联合考虑噪声、混响、剪切和低带宽等因素。
  • MaskSR利用预训练的神经编解码器提取离散声学令牌。
  • 在训练过程中,MaskSR优化以预测从高品质目标语音中随机屏蔽的令牌。
  • 推断过程中,MaskSR通过高效的迭代采样重建目标语音令牌。
  • 实验证明,MaskSR在全频语音恢复任务和子任务上取得了竞争力的结果。
➡️

继续阅读