小红花·文摘

本研究发布了一个包含100小时语音和视频的多模态中文AVSR数据集Chinese-LiPS，并开发了LiPS-AVSR管道，通过结合唇语阅读和演示信息，提升了语音识别性能约35%。