小红花·文摘

本文介绍了MaskSR，一种能够恢复全频44.1 kHz语音的掩码语言模型。通过联合考虑噪声、混响、剪切和低带宽，MaskSR使用预训练的神经编解码器提取离散声学令牌，并通过高效的迭代采样重建目标语音令牌。实验证明，MaskSR在全频语音恢复任务和子任务上取得了竞争力的结果。