本研究提出了一种结合CNN和全局注意力模块的双路径架构,解决复杂社交互动分析中的问题,尤其是松散互动。在自闭症诊断数据集上表现优异,显示出促进社交技能发展和心理健康诊断的潜力,强调不同社交互动需要不同的网络设计。
AV-CrossNet是一种音视系统,用于语音增强、目标说话人提取和多说话人分离。它通过添加视觉线索和利用全局注意力和位置编码来提高语音分离性能。评估结果表明,AV-CrossNet在音视任务上具有最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。