本研究提出了一种名为SSLR的半监督学习方法,旨在解决手语识别系统中标注数据稀缺的问题。通过为未标注样本生成伪标签,SSLR在使用较少标注数据的情况下,性能超过全监督学习模型,显示出在手语识别领域的潜力。
本文提出了BdSLW401,一个包含401个手势和102,176个视频样本的孟加拉手语数据集,以解决手语识别中的说话者变异和视角变化问题。通过引入相对量化编码(RQE),显著提升了基于变换器的手语识别效果,增强了模型的解释性和识别率。
本研究通过集成学习和多维视频Swin Transformer模型,解决了传统孤立手语识别中视角单一的问题,提升了模型在不同视角下的鲁棒性和泛化能力,并在相关比赛中获得第三名。
本文介绍了多个手语数据集及其相关研究,包括美国手语和英国手语的数据集,提出了基于姿态的手语识别模型和方法,探讨了手语处理的自动化技术及其在手语识别中的应用,旨在推动手语技术的发展和研究。
本研究提出了一种基于深度学习的手语识别系统,旨在解决听障人士在沟通中手语熟悉度不足的问题。该系统采用LSTM模型和MediaPipe Holistic技术,能够实时识别手语动作,并在印地语手语数据集上实现了88.23%的识别准确率。
本研究结合深度学习、迁移学习和变压器模型,提高了阿拉伯字母手语识别的准确性,在两个数据集上实现了99.6%的识别精度,为阿拉伯语听障人士提供了更好的沟通方式。
这篇综述论文回顾了手语识别的需求、挑战、问题、模态和数据集,并总结了过去十年的研究进展和现有SLR模型。它指出了该领域的研究差距和局限性,并提出了未来的研究方向。
该论文提出了一种自然语言辅助手语识别框架,通过利用语义信息降低手语识别中的视觉相似性问题。该方法使用了语言辅助标签平滑和交互式混合等技术,并引入了视频关键点网络作为骨干网络。实验结果表明,该方法在基准测试数据集上达到了最先进的性能。
本文研究了在连续手语识别和翻译中添加多模态信息的机制,通过将光流信息与 RGB 图像结合,丰富了与运动相关的特征。我们的方法在 RWTH-PHOENIX-2014 数据集上评估,手语识别任务中词错误率降低了0.9,翻译任务中测试集上的大多数 BLEU 得分提高了约0.6。
该研究提出了一种基于Transformer模型的新方法,用于连续手语识别和单独手语识别。该方法通过增强和分类手势键点特征来检测连续手语视频中单独手语的边界,并取得了有希望的结果。
本文介绍了一个基于可穿戴设备的自动手语识别系统的概念验证,通过采集动态手语数据并使用机器学习方法解释美国手语(ASL)动态单词。模型准确率高,如随机森林模型达到99%,SVM和两个KNN模型准确率为98%,展示了系统发展的多种可能路径。
SF-Net是一种连续手语识别模型,能够编码信息到三个层次的特征表示中,表现优于先前的方法。
该论文提出了一种自然语言辅助手语识别框架,通过语义信息降低手语识别中的视觉相似性问题。实验结果表明,该方法在基准测试数据集上达到了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。