实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文介绍了一种低功耗边缘计算优化的实时因果神经网络活动说话人检测系统,能够在具有挑战性的场景下正常运行。作者在一个现实的会议数据集上训练和评估了该算法。
🎯
关键要点
- 该文介绍了一种低功耗边缘计算优化的实时因果神经网络活动说话人检测系统。
- 系统能够在具有挑战性的场景下正常运行。
- 作者在一个现实的会议数据集上训练和评估了该算法。
- 系统通过来自麦克风阵列和360度摄像机的数据驱动虚拟电影摄影模块。
- 研究了网络在计算预算耗尽时的错误率,发现其表现出优雅的降级。
- 系统即使在计算预算耗尽的情况下仍能正常运行。
- 网络利用检测到的头部位置学习查询可用的声学数据,区别于传统的声源角估计方法。
- 数据集包含达到14个与会者的同一会议、语音重叠和其他具有挑战性的场景。
➡️