小红花·文摘

本研究提出了一种半监督学习方法，利用音频源定位引导的混合技术，解决视频动作识别中的高注释成本问题。该方法结合视觉和音频信息，尽管标记数据量少，仍能显著提升在UCF-51、Kinetics-400和VGGSound数据集上的表现，具有重要应用潜力。