BriefGPT - AI 论文速递 ·

BRAVEn: 提升自我监督的视觉和听觉语音识别预训练

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

RAVEn是一种多模态方法，通过自监督学习结合视觉和听觉语音表征，显著提升了视觉语音识别（VSR）性能。该方法在低资源环境下表现优异，利用少量标记数据和未标记音频-视觉数据，降低了词错误率，并在多个基准测试中取得了最新成果。

🎯

关键要点

RAVEn 是一种多模态方法，通过自监督学习结合视觉和听觉语音表征。
RAVEn 在视觉语音识别（VSR）方面优于所有自主学习方法，且在低资源环境下表现优异。
该方法仅使用 30 小时标记数据，超越了使用 90000 小时非公共数据训练的半监督方法。
在 LRS3 低资源设置中，RAVEn 在听觉语音识别和 VSR 方面均取得了最新的结果。
RAVEn 在噪音干扰情况下提高了超过 50% 的性能，并将词错误率减少了 75% 以上。
该研究提出了一种新颖的资源高效方法，利用训练过的自动语音识别（ASR）模型生成的语音表示进行 VSR。
基于 Conformer 的 ASR 模型提取知识后，在 LRS2 和 LRS3 测试基准上分别达到了 47.4% 和 54.7% 的词错误率（WER）。
经过有限标记数据的微调，词错误率降至 35%（LRS2）和 45.7%（LRS3）。

❓

延伸问答

RAVEn的主要功能是什么？

RAVEn是一种多模态方法，通过自监督学习结合视觉和听觉语音表征，提升视觉语音识别性能。

RAVEn在低资源环境下的表现如何？

RAVEn在低资源环境下表现优异，仅使用30小时标记数据就超越了使用90000小时非公共数据训练的半监督方法。

RAVEn如何减少词错误率？

RAVEn在噪音干扰情况下提高了超过50%的性能，并将词错误率减少了75%以上。

RAVEn的训练数据需求是什么？

RAVEn仅需30小时的标记数据和未标记的音频-视觉数据进行训练。

RAVEn在LRS3测试基准上的表现如何？

在LRS3低资源设置中，RAVEn在听觉语音识别和视觉语音识别方面均取得了最新的结果。

RAVEn的训练效率如何？

RAVEn可以在几天内在单个消费级GPU上进行训练，并能够在老旧硬件上实时进行端到端的视觉语音识别。

🏷️

标签

RAVEn 低资源多模态自监督学习视觉语音识别

➡️

继续阅读

WAIC 2026 | 摩尔线程首次公开多项训练推理实践成果，三大“AI工厂”持续释放算力价值
Christophe Pettus: All Your GUCs in a Row: extra_float_digits
extra_float_digits is the setting whose job changed out from under it. For mo...
吉利李书福炮轰上半年500万辆汽车出口背后的三个真相
500万辆汽车出口背后的三个真相中国汽车上半年出口509.6万辆，为什么行业复盘却称之为“出口托底内需”？本文从李书福炮轰传闻、魏建军“车圈恒大”之谜...
全球首例山中因子人体试验：十八只眼球里的二十年豪赌
一只小白鼠活了四天就挂了，人类却敢把同样的开关塞进自己眼睛里——你猜谁更疯？ 2026年6月9日，一家名为Life Biosciences的公司首次将一种...
早报｜曝月之暗面最快半年内上市/荣耀Robot Phone开启预约/IDC:2030年全球活跃智能体将超22亿个
· Meta 与 Anthropic 商谈两年最高 100 亿美元算力租赁 · 阶跃星辰与上海期智研究院共建智能体前沿研究院 · 小米解释澎程增程车采用 ...
大脑充血 Vol.90
上班的生活，貌似没有那么糟糕？兴许是因为作为刚入职的实习生，我的工作强度并不高吧。总之，本周我在忙入职和租房的事情，事件之间的空隙也有些喘息和四处游走的时...