Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种统一的语音识别模型,解决了以往听觉、视觉和视听语音识别研究独立进行的问题。通过贪婪伪标签方法,利用未标记样本提升模型性能,最终在多个数据集上达到了最新技术水平。
🎯
关键要点
- 本研究提出了一种统一的语音识别模型,解决了以往听觉、视觉和视听语音识别研究独立进行的问题。
- 研究引入了一种贪婪伪标签的方法,充分利用未标记样本以提升模型性能。
- 最终,该模型在多个数据集上达到了最新的技术水平,克服了性能不均衡和冗余性的问题。
➡️