Chinese-LiPS: A Chinese Audio-Visual Speech Recognition Dataset Incorporating Lip Reading and Presentation Information
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究发布了一个包含100小时语音和视频的多模态中文AVSR数据集Chinese-LiPS,并开发了LiPS-AVSR管道,通过结合唇语阅读和演示信息,提升了语音识别性能约35%。
🎯
关键要点
- 本研究发布了一个包含100小时语音和视频的多模态中文AVSR数据集Chinese-LiPS。
- 开发了LiPS-AVSR管道,通过结合唇语阅读和演示信息,提升了语音识别性能约35%。
- 研究解决了现有音视语音识别(AVSR)数据集和方法未能充分利用不同视觉线索组合的问题。
➡️