从非流式 ASR 编码器到流式 ASR 编码器的知识蒸馏,使用辅助非流式层
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文介绍了KD-NAS模型,使用神经架构搜索(NAS)寻找最佳学生模型进行知识蒸馏。该模型能够检索与自然语言任务相关的候选架构,并在下游任务培训集上提取架构,性能提升了15%(GPU)和20%(CPU)。
🎯
关键要点
- 提出了KD-NAS模型,使用神经架构搜索(NAS)寻找最佳学生模型进行知识蒸馏。
- KD-NAS模型能够检索与自然语言任务相关的顶级候选架构。
- 在完整的下游任务培训集上提取架构,性能与手工制作的学生模型相当。
- 在GPU延迟方面提升了15%,在CPU方面提升了20%。
➡️