小红花·文摘

该论文研究了英文到台湾闽南语的语音翻译，包括数据收集、建模和发布基准数据集。通过人工注释、数据自动挖掘和伪标注方法，收集了大量数据。在模型训练中，结合自监督离散表示和普通话文本监督，取得了良好效果。最后，推出了一个S2ST基准数据集。