本研究解决了低资源语言在自动语音识别(ASR)中可靠性不足的问题。论文提出了一种新颖的多语言口语理解基准Fleurs-SLU,涵盖102种语言的主题语音分类和92种语言的听力理解选择题回答。研究发现级联系统在多语言SLU任务中表现出更强的鲁棒性,并强调了语音与语义表示之间的相互促进效果。
介绍了Speech-MASSIVE多语种口语理解数据集,包括12种语言。数据集继承MASSIVE的意图预测和插槽填充任务注释。作者使用级联和端到端架构在不同训练场景下报告了SLU的基线结果,并展示了Speech-MASSIVE在其他任务方面的适用性。数据集、模型和代码公开可用。
本文探讨了在微控制器嵌入式设备上的口语理解(SLU)技术,将设备上的执行与云端卸载结合。通过利用时间局部性,设备将新输入与缓存结果进行匹配,并将匹配不成功的输入卸载到云端进行完整的推断。作者提出了一种适用于微型设备的语音缓存XYZ,通过聚类的原始声音单元序列和音素序列两个级别来匹配语音输入。实验结果表明,该系统能够在设备上解决45%至90%的输入,平均延迟降低了80%。
本文介绍了一种名为CLKD的方法,使用英文AS2模型进行跨语言知识蒸馏,可用于训练低资源语言的AS2模型。CLKD方法在不用标注数据的情况下,可与使用相同数量标注数据的监督微调方法相媲美,具有潜力为低资源语言提供更强大的AS2模型。
本文介绍了一种基于SLU度量标准的非可区分序列损失作为语义误差的代理,并使用REINFORCE技巧训练ASR和SLU模型的方法。作者在开放SLU数据集上展示了自定义序列损失训练的最新技术水平,并在大型专有数据集上显示了6%的相对改进。同时,作者还展示了如何使用语义反馈单独更新ASR和SLU模型。
完成下面两步后,将自动完成登录并继续当前操作。