随着语音技术的发展,全球语言多样性面临挑战。卡内基梅隆大学等机构推出ML-SUPERB 2.0挑战赛,旨在推动多语言语音技术,提供141种语言的语音数据,特别关注小众语言,确保技术公平应用。
本研究解决了在开发通用口语语言模型过程中缺乏全面评估基准的问题。作者提出动态SUPERB第二阶段,这是一个开放的、不断扩展的基准,以全面评估基于指令的通用语音模型,并引入了180个任务,大幅度提升了评估能力。研究发现,目前的模型在任务处理上存在普遍不足,亟需进一步创新。
本文介绍了WavLM预训练模型,利用Transformer结构的相对位置偏置来捕捉输入语音的顺序,提高了对非ASR语音任务的潜力,并在SUPERB基准测试上取得了最先进的性能。
2022 SLT会议将举行超级挑战赛,旨在学习自监督语音表征以获得更好的性能、泛化性和效率。该挑战对流行的语音处理任务进行全面覆盖,实施度量标准来测量自监督学习表征的计算需求,并评估其在不同的超级任务上的泛化性能和性能。
完成下面两步后,将自动完成登录并继续当前操作。