研究人员通过使用大型、多样化的未标记数据集,采用预训练、自我训练和模型规模扩大的方法,在自动语音识别(ASR)任务中取得了令人瞩目的结果。他们发现,通过微调一个80亿参数的预训练模型,仅使用3%的标记数据即可达到最先进性能,并且完整的训练集可以进一步提高性能。此外,预训练和自我训练模型在多个下游任务中具有通用收益,并在非ASR任务中取得了最先进结果。
完成下面两步后,将自动完成登录并继续当前操作。