Chinese-LiPS: A Chinese Audio-Visual Speech Recognition Dataset Incorporating Lip Reading and Presentation Information

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究发布了一个包含100小时语音和视频的多模态中文AVSR数据集Chinese-LiPS,并开发了LiPS-AVSR管道,通过结合唇语阅读和演示信息,提升了语音识别性能约35%。

🎯

关键要点

  • 本研究发布了一个包含100小时语音和视频的多模态中文AVSR数据集Chinese-LiPS。
  • 开发了LiPS-AVSR管道,通过结合唇语阅读和演示信息,提升了语音识别性能约35%。
  • 研究解决了现有音视语音识别(AVSR)数据集和方法未能充分利用不同视觉线索组合的问题。
➡️

继续阅读