本研究发布了一个包含100小时语音和视频的多模态中文AVSR数据集Chinese-LiPS,并开发了LiPS-AVSR管道,通过结合唇语阅读和演示信息,提升了语音识别性能约35%。
完成下面两步后,将自动完成登录并继续当前操作。