本文介绍了一种名为时间间隔机器(TIM)的模型,用于解决长视频中音频和视觉事件之间的相互作用。TIM通过将特定模态的时间间隔作为查询,将长视频输入馈入编码器,以识别正在进行的动作。实验结果显示,TIM在长音视频数据集上取得了最先进的识别结果,并在动作检测方面超越了先前的技术。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: