SlideAVSR:用于视听语音识别的论文解释视频数据集

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了SlideAVSR数据集和DocWhisper模型。SlideAVSR数据集用于评估模型在演示录音中将语音转录为滑动演示文本的能力。DocWhisper模型在SlideAVSR数据集上验证了其有效性。

🎯

关键要点

  • SlideAVSR数据集用于评估模型在演示录音中将语音转录为滑动演示文本的能力。

  • 论文提出了一种用于科学论文解释视频的AVSR数据集。

  • DocWhisper模型是一种简单但有效的AVSR模型。

  • DocWhisper模型可以参考来自幻灯片的文本信息。

  • DocWhisper模型在SlideAVSR数据集上验证了其有效性。

➡️

继续阅读