大规模基于内容的视频检索中的片段相似性和对齐学习

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种视频相似性学习架构ViSiL,通过卷积神经网络计算视频间相似度,避免了在帧之间的相似度计算之前进行特征聚合。使用三元组损失方案训练提出的网络,在五个公共基准数据集上评估,结果表明ViSiL比现有技术取得了显着进步。

🎯

关键要点

  • ViSiL是一种视频相似性学习架构,考虑视频对之间的细粒度时空关系。

  • 通过卷积神经网络计算视频间相似度,避免了在帧之间进行特征聚合。

  • 使用三元组损失方案训练网络,并在五个公共基准数据集上进行评估。

  • 评估结果显示ViSiL在四种不同的视频检索问题上比现有技术有显著进步。

  • ViSiL的实现是公开可用的。

➡️

继续阅读