本文构建了一个包含5,988个日常生活场景的视频片段的中文连续手语数据集(CE-CSL),旨在解决现有数据集缺乏多样性的问题。同时,提出了一种新的时间-频率网络(TFNet)模型,显著提升了复杂背景下的手语识别性能。
完成下面两步后,将自动完成登录并继续当前操作。