小红花·文摘 - 小红花技术领袖俱乐部

高效流式音视频主动说话者检测系统

高效流式音视频主动说话者检测系统

Apple Machine Learning Research ·

本研究提出ASDnB模型，解决主动说话者检测中身体动态特征利用不足的问题。该模型通过整合面部与身体信息，在复杂条件下表现优异，实验结果在多个基准数据集上达到最先进水平。

ASDnB: Integrating Facial and Bodily Cues to Enhance Robustness in Active Speaker Detection

BriefGPT - AI 论文速递 ·

本研究提出FabuLight-ASD模型，通过整合面部、音频和身体姿态信息，显著提升了多模态环境中主动说话者检测的准确性和鲁棒性，mAP达到94.3%。

FabuLight-ASD: Revealing Speech Activity through Body Language

BriefGPT - AI 论文速递 ·