本文探讨了主动说话者检测(ASD)的挑战,并提出了两种方法以应对实时系统中的延迟和内存问题:一是限制模型使用的未来上下文帧数量,二是限制推理时访问的过去帧数量。实验结果表明,受限的变换器模型在性能上可与最先进的递归模型相媲美,同时显著减少上下文帧数量。
本研究提出ASDnB模型,解决主动说话者检测中身体动态特征利用不足的问题。该模型通过整合面部与身体信息,在复杂条件下表现优异,实验结果在多个基准数据集上达到最先进水平。
本研究提出FabuLight-ASD模型,通过整合面部、音频和身体姿态信息,显著提升了多模态环境中主动说话者检测的准确性和鲁棒性,mAP达到94.3%。
完成下面两步后,将自动完成登录并继续当前操作。