大规模基于内容的视频检索中的片段相似性和对齐学习
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种视频相似性学习架构ViSiL,通过卷积神经网络计算视频间相似度,避免了在帧之间的相似度计算之前进行特征聚合。使用三元组损失方案训练提出的网络,在五个公共基准数据集上评估,结果表明ViSiL比现有技术取得了显着进步。
🎯
关键要点
-
ViSiL是一种视频相似性学习架构,考虑视频对之间的细粒度时空关系。
-
通过卷积神经网络计算视频间相似度,避免了在帧之间进行特征聚合。
-
使用三元组损失方案训练网络,并在五个公共基准数据集上进行评估。
-
评估结果显示ViSiL在四种不同的视频检索问题上比现有技术有显著进步。
-
ViSiL的实现是公开可用的。
➡️