利用时间信息检测视频中的对话群体并预测下一个发言耠

💡 原文中文,约2000字,阅读约需5分钟。
📝

内容提要

本研究使用时间信息和人类多模态信号,通过LSTM在视频中检测对话群体和预测下一个发言者。实验结果显示,群体检测的真实正例率达85%,下一个发言者预测的准确率为98%。

🎯

关键要点

  • 本研究解决了在视频中检测对话群体及预测下一个发言者的问题。
  • 采用基于时间信息和人类多模态信号的创新方法。
  • 使用长短期记忆网络(LSTM)进行预测。
  • 实验结果显示,群体检测的真实正例率达85%。
  • 下一个发言者预测的准确率为98%。
➡️

继续阅读