小红花·文摘

HFUT-VUT研究团队在ACM Multimedia 2023的MultiMediate Grand Challenge 2023中的解决方案覆盖了三个子挑战。他们选择了Swin Transformer作为基线，并利用数据增广策略来提高模型的泛化能力。结果显示，他们的解决方案在身体行为识别和眼神接触检测方面取得了最佳结果，并在下一个发言者的预测方面也有可比较的结果。