BRAVEn: 提升自我监督的视觉和听觉语音识别预训练
内容提要
RAVEn是一种多模态方法,通过自监督学习结合视觉和听觉语音表征,显著提升了视觉语音识别(VSR)性能。该方法在低资源环境下表现优异,利用少量标记数据和未标记音频-视觉数据,降低了词错误率,并在多个基准测试中取得了最新成果。
关键要点
-
RAVEn 是一种多模态方法,通过自监督学习结合视觉和听觉语音表征。
-
RAVEn 在视觉语音识别(VSR)方面优于所有自主学习方法,且在低资源环境下表现优异。
-
该方法仅使用 30 小时标记数据,超越了使用 90000 小时非公共数据训练的半监督方法。
-
在 LRS3 低资源设置中,RAVEn 在听觉语音识别和 VSR 方面均取得了最新的结果。
-
RAVEn 在噪音干扰情况下提高了超过 50% 的性能,并将词错误率减少了 75% 以上。
-
该研究提出了一种新颖的资源高效方法,利用训练过的自动语音识别(ASR)模型生成的语音表示进行 VSR。
-
基于 Conformer 的 ASR 模型提取知识后,在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率(WER)。
-
经过有限标记数据的微调,词错误率降至 35%(LRS2)和 45.7%(LRS3)。
延伸问答
RAVEn的主要功能是什么?
RAVEn是一种多模态方法,通过自监督学习结合视觉和听觉语音表征,提升视觉语音识别性能。
RAVEn在低资源环境下的表现如何?
RAVEn在低资源环境下表现优异,仅使用30小时标记数据就超越了使用90000小时非公共数据训练的半监督方法。
RAVEn如何减少词错误率?
RAVEn在噪音干扰情况下提高了超过50%的性能,并将词错误率减少了75%以上。
RAVEn的训练数据需求是什么?
RAVEn仅需30小时的标记数据和未标记的音频-视觉数据进行训练。
RAVEn在LRS3测试基准上的表现如何?
在LRS3低资源设置中,RAVEn在听觉语音识别和视觉语音识别方面均取得了最新的结果。
RAVEn的训练效率如何?
RAVEn可以在几天内在单个消费级GPU上进行训练,并能够在老旧硬件上实时进行端到端的视觉语音识别。