SlideAVSR:用于视听语音识别的论文解释视频数据集

原文约300字,阅读约需1分钟。发表于:

通过构建 SlideAVSR 数据集,这篇论文提出了一种用于科学论文解释视频的 AVSR 数据集,旨在为模型提供在演示录音中将语音话语转录为滑动演示文本的基准评估。同时,论文还介绍了一种名为 DocWhisper 的简单但有效的 AVSR 模型,它可以参考来自幻灯片的文本信息,并在 SlideAVSR 数据集上验证其有效性。

本文介绍了SlideAVSR数据集和DocWhisper模型。SlideAVSR数据集用于评估模型在演示录音中将语音转录为滑动演示文本的能力。DocWhisper模型在SlideAVSR数据集上验证了其有效性。

相关推荐 去reddit讨论