大型语言模型通过自监督预训练在自然语言处理上取得了显著进展。研究者们探索了复杂的语音标记化方法,以离散化连续语音信号。现有方法往往损失语义或声学信息。本文提出将梅尔滤波器通道离散化为强度箱(dMel),在语音识别和合成中表现优于其他方法,验证了语音与文本联合建模的有效性。
完成下面两步后,将自动完成登录并继续当前操作。