BriefGPT - AI 论文速递

BriefGPT - AI 论文速递 -

XLAVS-R:跨语言音视频言语表征学习用于噪音鲁棒言语感知

基于 XLAVS-R 的跨语言音频 - 视觉语音表示模型,在噪声环境下提高语音识别和翻译的鲁棒性,并在超过 100 种语言中显示出强大的跨语言音频 - 视觉能力。

本文提出了一种基于视觉模态的无监督噪声适应方案,通过音位-音素映射技术从视觉信号中恢复干净音频,提高AVSR系统的噪声鲁棒性。实验结果表明,该方法在各种噪声和清晰条件下都达到了最先进水平,并在视觉语音识别任务上优于之前的最优水平。

AVSR系统 噪声鲁棒性 无监督噪声适应 视觉模态 音位-音素映射技术

相关推荐 去reddit讨论

热榜 Top10

观测云
观测云
eolink
eolink
Dify.AI
Dify.AI
LigaAI
LigaAI

推荐或自荐