本研究使用时间信息和人类多模态信号,通过LSTM在视频中检测对话群体和预测下一个发言者。实验结果显示,群体检测的真实正例率达85%,下一个发言者预测的准确率为98%。
完成下面两步后,将自动完成登录并继续当前操作。