利用视觉监督进行基于阵列的主动说话人检测和定位

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统。该系统利用麦克风阵列和360度摄像机的数据进行活动说话人检测,并在计算预算耗尽时表现出优雅的降级。与传统的声源角估计方法不同,该系统利用检测到的头部位置学习查询可用的声学数据。该系统在现实的会议数据集上进行了训练和评估,包含具有挑战性的场景。

🎯

关键要点

  • 该系统是商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统。
  • 系统利用麦克风阵列和360度摄像机的数据进行活动说话人检测。
  • 在计算预算耗尽时,系统表现出优雅的降级,仍能正常运行。
  • 与传统声源角估计方法不同,系统利用检测到的头部位置学习查询可用的声学数据。
  • 算法在一个包含14个与会者、语音重叠和其他挑战性场景的现实会议数据集上进行训练和评估。
➡️

继续阅读