可解释的嵌入式技术用于即时视频搜索
原文中文,约200字,阅读约需1分钟。发表于: 。通过集成特征嵌入和概念解释到神经网络中进行统一的双重任务学习,本论文实现了将嵌入与语义概念关联,作为视频内容解释的新方法,并在 TRECVid 基准数据集上证明了搜索结果的显著提升。
该论文提出了一种新型的Transformer模型,通过注意力机制将文本和视频显式分离,以寻找识别特征。初步结果表明,该方法在指标上超过了当前最先进的方法。
通过集成特征嵌入和概念解释到神经网络中进行统一的双重任务学习,本论文实现了将嵌入与语义概念关联,作为视频内容解释的新方法,并在 TRECVid 基准数据集上证明了搜索结果的显著提升。
该论文提出了一种新型的Transformer模型,通过注意力机制将文本和视频显式分离,以寻找识别特征。初步结果表明,该方法在指标上超过了当前最先进的方法。