小红花·文摘

本文构建了一个包含5,988个日常生活场景的视频片段的中文连续手语数据集（CE-CSL），旨在解决现有数据集缺乏多样性的问题。同时，提出了一种新的时间-频率网络（TFNet）模型，显著提升了复杂背景下的手语识别性能。