BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 -

SoundingActions:从自述的视觉记录视频中学习动作的声音

我们提出了一种新的自监督嵌入方法,通过从生动的一视角视频中学习动作的声音。我们的多模态对比一致编码嵌入(MC3)在所有模态对都匹配时增强音频、语言和视觉之间的关联性,而在某一个模态对不匹配时减弱关联性。我们的方法成功地发现了来自一视角视频中各类人类动作的声音,超过了多种最新的多模态嵌入技术在两个数据集(Ego4D 和 EPIC-Sounds)和多个跨模态任务上的表现。

我们提出了一种新的自监督嵌入方法,通过从生动的一视角视频中学习动作的声音。我们的多模态对比一致编码嵌入(MC3)在所有模态对都匹配时增强音频、语言和视觉之间的关联性,而在某一个模态对不匹配时减弱关联性。我们的方法成功地发现了来自一视角视频中各类人类动作的声音,超过了多种最新的多模态嵌入技术在两个数据集(Ego4D 和 EPIC-Sounds)和多个跨模态任务上的表现。

相关推荐 去reddit讨论