BRAVEn: 提升自我监督的视觉和听觉语音识别预训练

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

RAVEn是一种多模态方法,通过自监督学习结合视觉和听觉语音表征,显著提升了视觉语音识别(VSR)性能。该方法在低资源环境下表现优异,利用少量标记数据和未标记音频-视觉数据,降低了词错误率,并在多个基准测试中取得了最新成果。

🎯

关键要点

  • RAVEn 是一种多模态方法,通过自监督学习结合视觉和听觉语音表征。

  • RAVEn 在视觉语音识别(VSR)方面优于所有自主学习方法,且在低资源环境下表现优异。

  • 该方法仅使用 30 小时标记数据,超越了使用 90000 小时非公共数据训练的半监督方法。

  • 在 LRS3 低资源设置中,RAVEn 在听觉语音识别和 VSR 方面均取得了最新的结果。

  • RAVEn 在噪音干扰情况下提高了超过 50% 的性能,并将词错误率减少了 75% 以上。

  • 该研究提出了一种新颖的资源高效方法,利用训练过的自动语音识别(ASR)模型生成的语音表示进行 VSR。

  • 基于 Conformer 的 ASR 模型提取知识后,在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率(WER)。

  • 经过有限标记数据的微调,词错误率降至 35%(LRS2)和 45.7%(LRS3)。

延伸问答

RAVEn的主要功能是什么?

RAVEn是一种多模态方法,通过自监督学习结合视觉和听觉语音表征,提升视觉语音识别性能。

RAVEn在低资源环境下的表现如何?

RAVEn在低资源环境下表现优异,仅使用30小时标记数据就超越了使用90000小时非公共数据训练的半监督方法。

RAVEn如何减少词错误率?

RAVEn在噪音干扰情况下提高了超过50%的性能,并将词错误率减少了75%以上。

RAVEn的训练数据需求是什么?

RAVEn仅需30小时的标记数据和未标记的音频-视觉数据进行训练。

RAVEn在LRS3测试基准上的表现如何?

在LRS3低资源设置中,RAVEn在听觉语音识别和视觉语音识别方面均取得了最新的结果。

RAVEn的训练效率如何?

RAVEn可以在几天内在单个消费级GPU上进行训练,并能够在老旧硬件上实时进行端到端的视觉语音识别。

➡️

继续阅读