Apple Machine Learning Research ·

AV-CPL：用于音视频语音识别的连续伪标签方法

💡 原文英文，约400词，阅读约需2分钟。

📝

内容提要

本文介绍了一种名为AV-CPL的连续伪标签方法，用于音视频语音识别（AVSR）。该方法通过结合标记和未标记视频，持续生成伪标签来训练模型。在LRS3数据集上，AV-CPL显著提升了视觉语音识别（VSR）性能，同时保持了自动语音识别（ASR）和AVSR的实用性。此外，该方法利用未标记的视觉语音数据改善VSR表现。

🎯

关键要点

AV-CPL是一种用于音视频语音识别的连续伪标签方法。
该方法结合标记和未标记视频，持续生成伪标签来训练模型。
AV-CPL在LRS3数据集上显著提升了视觉语音识别的性能。
该方法同时保持了自动语音识别和音视频语音识别的实用性。
AV-CPL利用未标记的视觉语音数据改善视觉语音识别表现。

❓

延伸问答

AV-CPL方法的主要功能是什么？

AV-CPL是一种用于音视频语音识别的连续伪标签方法，能够结合标记和未标记视频生成伪标签来训练模型。

AV-CPL在LRS3数据集上的表现如何？

在LRS3数据集上，AV-CPL显著提升了视觉语音识别的性能。

AV-CPL如何利用未标记数据改善VSR表现？

AV-CPL利用未标记的视觉语音数据来改善视觉语音识别的表现。

AV-CPL方法的训练过程是怎样的？

AV-CPL通过持续生成伪标签，结合标记和未标记视频来训练音视频语音识别模型。

AV-CPL是否需要外部语音识别模型？

AV-CPL使用相同的音视频模型进行监督训练和伪标签生成，因此不需要外部语音识别模型。

AV-CPL对自动语音识别的影响是什么？

AV-CPL在提升视觉语音识别性能的同时，保持了自动语音识别的实用性。

🏷️