多媒体 '23: 社交互动中的参与度估计和身体行为识别

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

HFUT-VUT研究团队在ACM Multimedia 2023的MultiMediate Grand Challenge 2023中的解决方案覆盖了三个子挑战。他们选择了Swin Transformer作为基线,并利用数据增广策略来提高模型的泛化能力。结果显示,他们的解决方案在身体行为识别和眼神接触检测方面取得了最佳结果,并在下一个发言者的预测方面也有可比较的结果。

🎯

关键要点

  • HFUT-VUT研究团队在ACM Multimedia 2023的MultiMediate Grand Challenge 2023中参与了三个子挑战。
  • 选择Swin Transformer作为基线模型,并采用数据增广策略。
  • 通过裁剪原始视频去除噪声,提高模型的泛化能力。
  • 在身体行为识别任务中取得最佳平均精度0.6262。
  • 在眼神接触检测中获得准确率0.7771。
  • 在下一个发言者的预测中实现了0.5281的不加权平均召回率。
➡️

继续阅读