小红花·文摘

实时互动网 ·

本文介绍了一种基于音频和视觉信息的多模态方法，显著提升了厨房环境中的动作识别性能，尤其是在动词分类上提高了5.18%。研究探讨了多模态学习、时间上下文和自我监督学习等技术，强调了音频标签在视频理解中的重要性。

BriefGPT - AI 论文速递 ·