增强CTC基础的视觉语音识别

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

该论文提出了一种新颖的资源高效方法,利用已训练的自动语音识别模型进行视觉语音识别。该方法在VSR基准测试中以极少的资源实现了竞争性的性能,微调后的词错误率分别为35%(LRS2)和45.7%(LRS3)。该模型可以在几天内在单个GPU上进行训练,并能够在老旧硬件上实时进行端到端的VSR。

原文中文,约400字,阅读约需1分钟。
阅读原文